روش CLIMB روش کارآمدتری برای کشف تغییرات بیولوژیکی معنی دار در داده های ژنومی ارائه می دهد

کل مطالعات ژنومی، حجم عظیمی از داده‌ها را تولید می‌کند، از میلیون‌ها توالی DNA منفرد گرفته تا اطلاعاتی درباره مکان و تعداد ژن‌هایی که از هزاران ژن بیان می‌شوند تا مکان عناصر عملکردی در سراسر ژنوم. به دلیل حجم و پیچیدگی داده ها، مقایسه شرایط بیولوژیکی مختلف یا بین مطالعات انجام شده توسط آزمایشگاه های جداگانه می تواند از نظر آماری چالش برانگیز باشد.

محققان روش CLIMB (Composite LIkelihood eMpirical Bayes) را در مقاله ای که به صورت آنلاین در 12 نوامبر در مجله منتشر شد، توصیف می کنند. ارتباطات طبیعت.

در نهایت، این تیم داده‌های یک فناوری آزمایشی دیگر به نام DNase-seq را بررسی کردند که می‌تواند مکان‌های مناطق نظارتی را شناسایی کند تا قابلیت دسترسی کروماتین را مقایسه کند. مجموعه ای از DNA و پروتئین -؛ در 38 نوع سلول انسانی

یک روش آماری جدید راه کارآمدتری را برای کشف تغییرات معنی دار بیولوژیکی در داده های ژنومی که شرایط چندگانه را در بر می گیرد، ارائه می دهد. مانند انواع سلول ها یا بافت ها.

هیلاری کخ، دانشجوی فارغ التحصیل در ایالت پن در زمان تحقیق و در حال حاضر یک آماردان ارشد، گفت: «در آزمایش‌هایی که اطلاعات بسیار زیادی وجود دارد، اما از افراد نسبتاً کمی وجود دارد، کمک می‌کند تا بتوانیم از اطلاعات به بهترین نحو ممکن استفاده کنیم. در مدرنا “مزایای آماری وجود دارد که بتوانیم همه چیز را با هم ببینیم و حتی از اطلاعات آزمایش‌های مرتبط استفاده کنیم. CLIMB به ما این امکان را می‌دهد.”

یک تکنیک متفاوت، الگوی فعالیت هر آزمودنی را در سراسر شرایط به یک “بردار ارتباط” ترکیب می‌کند، به عنوان مثال، ژنی که به بالا تنظیم می‌شود، تنظیم می‌شود، یا در هر یک از انواع سلول‌ها تغییری ایجاد نمی‌شود. بردار ارتباط مستقیماً الگوی ویژگی شرایط را منعکس می کند و تفسیر آن آسان است. با این حال، از آنجا که بسیاری از ترکیب‌های مختلف حتی زمانی که شرایط انگشت شماری وجود دارد، امکان‌پذیر است، محاسبات از نظر محاسباتی بسیار شدید هستند. برای غلبه بر این چالش، این رویکرد دوم به تنهایی مفروضاتی را در مورد چگونگی ساده سازی داده ها ایجاد می کند که همیشه صحیح نیستند.

منبع:

برای هر سه آزمایش، ما می‌خواستیم ببینیم آیا نتایج ما ارتباط بیولوژیکی دارد، بنابراین نتایج خود را با داده‌های مستقل مقایسه کردیم، مانند مطالعات توالی‌یابی با توان بالای تغییرات هیستون و ردپای فاکتور رونویسی. گفت کخ. “در هر مورد، نتایج ما با این روش‌های دیگر مطابقت دارد. در مرحله بعد، ما می‌خواهیم سرعت محاسباتی روش خود را بهبود بخشیم و تعداد شرایطی را که می‌تواند انجام دهد افزایش دهیم. به عنوان مثال، داده‌های دسترسی کروماتین برای بسیاری از انواع سلول‌های بیشتر در دسترس هستند. بنابراین ما دوست داریم مقیاس CLIMB را افزایش دهیم.”

مشکل زمانی که شما چندین شرایط دارید این است که چگونه داده ها را با هم تجزیه و تحلیل کنید به روشی که هم از نظر آماری قدرتمند و هم از نظر محاسباتی کارآمد باشد. روش های موجود از نظر محاسباتی گران هستند یا نتایجی را ایجاد می کنند که تفسیر بیولوژیکی آنها دشوار است. ما روشی به نام CLIMB ایجاد کردیم که روش‌های موجود را بهبود می‌بخشد، از نظر محاسباتی کارآمد است و نتایج قابل تفسیر بیولوژیکی را تولید می‌کند. ما این روش را روی سه نوع داده ژنومی جمع‌آوری‌شده از سلول‌های خونساز آزمایش می‌کنیم. مربوط به سلول های بنیادی خون -؛ اما این روش همچنین می تواند در تجزیه و تحلیل سایر داده های “Omic” استفاده شود.”


راس هاردیسون می‌گوید: «انواع مختلف سلول‌های خونی عملکردهای مختلفی دارند – برخی تبدیل به گلبول‌های قرمز خون و برخی دیگر به سلول‌های ایمنی تبدیل می‌شوند؛ و ما می‌خواستیم بدانیم کدام ژن‌ها در تعیین هر نوع سلول متمایز نقش دارند.» تی مینگ چو استاد بیوشیمی و زیست شناسی مولکولی در ایالت پن. “رویکرد CLIMB برخی از ژن‌های مهم را بیرون کشید؛ برخی از آنها را قبلاً می‌دانستیم و برخی دیگر به آنچه می‌دانیم اضافه می‌کنند. اما تفاوت این است که این نتایج بسیار خاص‌تر و بسیار قابل تفسیرتر از نتایج آنالیزهای قبلی بودند.”

کخ، اچ.، و همکاران (2022) CLIMB: تشخیص ارتباط با ابعاد بالا در داده های ژنومی در مقیاس بزرگ. ارتباطات طبیعت. doi.org/10.1038/s41467-022-34360-z.



منبع

در حالی که روش سنتی زوجی شش تا هفت هزار ژن مورد علاقه را شناسایی می‌کرد، CLIMB فهرست بسیار محدودتری از دو تا سه هزار ژن را تولید کرد که حداقل هزار تا از آن ژن‌ها در هر دو تجزیه و تحلیل شناسایی شدند.

Qunhua Li، دانشیار آمار، ایالت پن

محققان همچنین از CLIMB بر روی داده های تولید شده از یک فناوری آزمایشی متفاوت، ChIP-seq، استفاده کردند که می تواند محل اتصال پروتئین های خاص به DNA را در طول ژنوم شناسایی کند. آنها چگونگی اتصال پروتئینی به نام CTCF را بررسی کردند. یک فاکتور رونویسی که به ایجاد تعاملات مورد نیاز برای تنظیم ژن در هسته سلول کمک می کند – در 17 جمعیت سلولی که همگی از یک سلول بنیادی خونساز مشتق شده اند، تغییر می کند یا نمی کند. تجزیه و تحلیل CLIMB دسته‌های متمایزی از مکان‌های متصل به CTCF را شناسایی کرد، برخی که نقش این فاکتور رونویسی را در همه سلول‌های خونی نشان می‌دهند و برخی دیگر نقش‌هایی را در انواع سلول‌های خاص نشان می‌دهند.

لی گفت: «در مقایسه با روش رایج جفتی، نتایج ما مشخص‌تر است. “فهرست ژنی ما مختصرتر و از نظر بیولوژیکی مرتبط تر است.”

کوچ گفت: “CLIMB از جنبه های هر دوی این رویکردها استفاده می کند.” ما در نهایت بردارهای ارتباطی را تجزیه و تحلیل می‌کنیم، اما ابتدا از تحلیل‌های زوجی برای شناسایی الگوهایی استفاده می‌کنیم که احتمالاً از قبل وجود دارند. این به طور چشمگیری فضای الگوهای ممکن را در بین شرایط کاهش می دهد که در غیر این صورت محاسبات را بسیار فشرده می کند.”

مرجع مجله:

علاوه بر لی، کوچ و هاردیسون، تیم تحقیقاتی شامل شریل کلر، گوانجوئه شیانگ و بلیندا جیاردین در ایالت پن، فیپنگ ژانگ در دانشگاه شیان جیائوتنگ چین و ییچنگ وانگ از دانشگاه بریتیش کلمبیا در کانادا است. این تحقیق توسط مؤسسه ملی بهداشت از جمله مؤسسه ملی علوم پزشکی عمومی، مؤسسه ملی تحقیقات ژنوم انسانی و مؤسسه ملی دیابت و بیماری‌های گوارشی و کلیوی پشتیبانی شده است.

پس از جمع‌آوری مجموعه کاهش‌یافته بردارهای ارتباطی ممکن، این روش موضوعاتی را که از الگوی یکسانی در همه شرایط پیروی می‌کنند، خوشه‌بندی می‌کند. به عنوان مثال، نتایج می‌تواند مجموعه‌ای از ژن‌ها را به محققین بگوید که در برخی از انواع سلول‌ها به طور جمعی تنظیم شده‌اند، اما در برخی دیگر با کاهش تنظیم می‌شوند.

محققان روش خود را بر روی داده‌های جمع‌آوری‌شده از آزمایش‌ها با استفاده از فناوری به نام RNA-seq آزمایش کردند، که می‌تواند میزان RNA ساخته شده از تمام ژن‌های بیان‌شده در یک سلول را اندازه‌گیری کند تا بررسی کند که آیا ژن‌های خاصی به تعیین نوع سلول‌های بنیادی خونساز کمک می‌کنند یا خیر. سلول در نهایت تبدیل به.

روش CLIMB از اصول دو تکنیک سنتی برای تجزیه و تحلیل داده ها در شرایط مختلف استفاده می کند. یک تکنیک از مجموعه ای از مقایسه های زوجی بین شرایط استفاده می کند، اما با اضافه شدن شرایط اضافی، تفسیر آن به طور فزاینده ای چالش برانگیز می شود.