کل مطالعات ژنومی، حجم عظیمی از دادهها را تولید میکند، از میلیونها توالی DNA منفرد گرفته تا اطلاعاتی درباره مکان و تعداد ژنهایی که از هزاران ژن بیان میشوند تا مکان عناصر عملکردی در سراسر ژنوم. به دلیل حجم و پیچیدگی داده ها، مقایسه شرایط بیولوژیکی مختلف یا بین مطالعات انجام شده توسط آزمایشگاه های جداگانه می تواند از نظر آماری چالش برانگیز باشد.
محققان روش CLIMB (Composite LIkelihood eMpirical Bayes) را در مقاله ای که به صورت آنلاین در 12 نوامبر در مجله منتشر شد، توصیف می کنند. ارتباطات طبیعت.
در نهایت، این تیم دادههای یک فناوری آزمایشی دیگر به نام DNase-seq را بررسی کردند که میتواند مکانهای مناطق نظارتی را شناسایی کند تا قابلیت دسترسی کروماتین را مقایسه کند. مجموعه ای از DNA و پروتئین -؛ در 38 نوع سلول انسانی
یک روش آماری جدید راه کارآمدتری را برای کشف تغییرات معنی دار بیولوژیکی در داده های ژنومی که شرایط چندگانه را در بر می گیرد، ارائه می دهد. مانند انواع سلول ها یا بافت ها.
هیلاری کخ، دانشجوی فارغ التحصیل در ایالت پن در زمان تحقیق و در حال حاضر یک آماردان ارشد، گفت: «در آزمایشهایی که اطلاعات بسیار زیادی وجود دارد، اما از افراد نسبتاً کمی وجود دارد، کمک میکند تا بتوانیم از اطلاعات به بهترین نحو ممکن استفاده کنیم. در مدرنا “مزایای آماری وجود دارد که بتوانیم همه چیز را با هم ببینیم و حتی از اطلاعات آزمایشهای مرتبط استفاده کنیم. CLIMB به ما این امکان را میدهد.”
یک تکنیک متفاوت، الگوی فعالیت هر آزمودنی را در سراسر شرایط به یک “بردار ارتباط” ترکیب میکند، به عنوان مثال، ژنی که به بالا تنظیم میشود، تنظیم میشود، یا در هر یک از انواع سلولها تغییری ایجاد نمیشود. بردار ارتباط مستقیماً الگوی ویژگی شرایط را منعکس می کند و تفسیر آن آسان است. با این حال، از آنجا که بسیاری از ترکیبهای مختلف حتی زمانی که شرایط انگشت شماری وجود دارد، امکانپذیر است، محاسبات از نظر محاسباتی بسیار شدید هستند. برای غلبه بر این چالش، این رویکرد دوم به تنهایی مفروضاتی را در مورد چگونگی ساده سازی داده ها ایجاد می کند که همیشه صحیح نیستند.
منبع:
برای هر سه آزمایش، ما میخواستیم ببینیم آیا نتایج ما ارتباط بیولوژیکی دارد، بنابراین نتایج خود را با دادههای مستقل مقایسه کردیم، مانند مطالعات توالییابی با توان بالای تغییرات هیستون و ردپای فاکتور رونویسی. گفت کخ. “در هر مورد، نتایج ما با این روشهای دیگر مطابقت دارد. در مرحله بعد، ما میخواهیم سرعت محاسباتی روش خود را بهبود بخشیم و تعداد شرایطی را که میتواند انجام دهد افزایش دهیم. به عنوان مثال، دادههای دسترسی کروماتین برای بسیاری از انواع سلولهای بیشتر در دسترس هستند. بنابراین ما دوست داریم مقیاس CLIMB را افزایش دهیم.”
مشکل زمانی که شما چندین شرایط دارید این است که چگونه داده ها را با هم تجزیه و تحلیل کنید به روشی که هم از نظر آماری قدرتمند و هم از نظر محاسباتی کارآمد باشد. روش های موجود از نظر محاسباتی گران هستند یا نتایجی را ایجاد می کنند که تفسیر بیولوژیکی آنها دشوار است. ما روشی به نام CLIMB ایجاد کردیم که روشهای موجود را بهبود میبخشد، از نظر محاسباتی کارآمد است و نتایج قابل تفسیر بیولوژیکی را تولید میکند. ما این روش را روی سه نوع داده ژنومی جمعآوریشده از سلولهای خونساز آزمایش میکنیم. مربوط به سلول های بنیادی خون -؛ اما این روش همچنین می تواند در تجزیه و تحلیل سایر داده های “Omic” استفاده شود.”
راس هاردیسون میگوید: «انواع مختلف سلولهای خونی عملکردهای مختلفی دارند – برخی تبدیل به گلبولهای قرمز خون و برخی دیگر به سلولهای ایمنی تبدیل میشوند؛ و ما میخواستیم بدانیم کدام ژنها در تعیین هر نوع سلول متمایز نقش دارند.» تی مینگ چو استاد بیوشیمی و زیست شناسی مولکولی در ایالت پن. “رویکرد CLIMB برخی از ژنهای مهم را بیرون کشید؛ برخی از آنها را قبلاً میدانستیم و برخی دیگر به آنچه میدانیم اضافه میکنند. اما تفاوت این است که این نتایج بسیار خاصتر و بسیار قابل تفسیرتر از نتایج آنالیزهای قبلی بودند.”
کخ، اچ.، و همکاران (2022) CLIMB: تشخیص ارتباط با ابعاد بالا در داده های ژنومی در مقیاس بزرگ. ارتباطات طبیعت. doi.org/10.1038/s41467-022-34360-z.