با استفاده از MassiveFold، دانشمندان پتانسیل کامل AlphaFold را به کار گرفتند و پیشبینی پروتئین با اطمینان بالا را سریعتر و آسانتر کردند و باعث پیشرفتهایی در زیستشناسی و کشف دارو شدند.
اتصال مختصر: MassiveFold: آشکار کردن پتانسیل پنهان AlphaFold از طریق نمونه برداری گسترده موازی. اعتبار تصویر: هوش مصنوعی Shutterstock
در مطالعه اخیر منتشر شده در مجله علوم طبیعی محاسباتیمحققان فرانسوی MassiveFold را توسعه داده اند، نسخه بهبود یافته AlphaFold که به طور خاص برای پردازش موازی طراحی شده است. هدف آنها کاهش زمان پیشبینی ساختارهای پروتئینی از ماهها به ساعتها بود. آنها دریافتند که MassiveFold به طور موثر مدلسازی ساختاری پروتئینها و مجموعههای پروتئین را بهبود میبخشد در حالی که هزینههای محاسباتی را کاهش میدهد، کیفیت پیشبینی و مقیاسپذیری را در تنظیمات سختافزاری مختلف افزایش میدهد.
پس زمینه
AlphaFold و AlphaFold Protein Structure Database دسترسی به پیشبینیهای ساختار پروتئین را تغییر دادهاند و مدلسازی زنجیرههای منفرد و مجموعههای پروتئینی پیچیده را ممکن میسازند. با این حال، علیرغم مزایای نمونه برداری فشرده با استفاده از AlphaFold، هنوز از نظر محاسباتی نیازمند و زمان بر است.
نمونهبرداری انبوه نشان داده است که تنوع ساختاری و تنوع ساختاری در مونومرها و کمپلکسهای پروتئینی، از جمله مجموعههای پیچیده مانند مجتمعهای نانوبادی و برهمکنشهای آنتی ژن-آنتیبادی را نشان میدهد. اما این نمونههای بالاتر، اگرچه دقت پیشبینی را بهبود میبخشند، اما از نظر تقاضای GPU و زمانهای پردازش طولانی با چالشهای مهمی همراه هستند.
به طور خاص، واحد پردازش گرافیکی بالا (GPU) AlphaFold و ناتوانی آن در اجرای موازی محدودیتهای عملی ایجاد میکند. اجرای استاندارد AlphaFold-Multimer، به ویژه برای مجموعه های بزرگ، اغلب از زمان های کلاستر GPU مشخص شده توسط زیرساخت های محاسباتی فراتر می رود، که مانع از تکمیل پیش بینی های پیچیده می شود. این امر درک پتانسیل کامل AlphaFold در محدودیتهای منابع GPU فعلی را دشوار میکند، و انگیزه ایجاد راهحلهای کارآمدتر برای پیشبینیهای ساختاری تک زنجیرهای و پیچیده را فراهم میکند.
برای مقابله با این چالشها، محققان در این مطالعه MassiveFold را توسعه دادند، نسخهای موازی و قابل تنظیم AlphaFold که وظایف محاسباتی را بین CPU و GPU توزیع میکند تا پیشبینی ساختارهای پروتئین را تسریع بخشد.
در مورد مطالعه
نسخه 1.2.5 MassiveFold که در Bash و Python 3 توسعه یافته است، ترکیبی از قابلیتهای پیشبینی ساختار AlphaFold با نمونهبرداری بهبودیافته از طریق AFmassive یا ColabFold و موازیسازی بهبود یافته در CPU و GPU است. این برنامه برای انعطافپذیری طراحی شده است و به کاربران امکان میدهد تا پارامترهایی مانند نرخ نشت، استفاده از الگو و مراحل بازیافت تعریف شده در فایل علامتگذاری شی جاوا اسکریپت (JSON) را برای افزایش تنوع ساختاری تنظیم کنند. SLURM Workload Manager به طور موثر منابع را با تنظیم اندازه دستهای متعادل میکند تا اطمینان حاصل شود که وظایف در زمان مشخص انجام میشوند.
این فرآیند شامل مراحل زیر است: (1) ایجاد هم ترازی بر روی هسته های CPU (با استفاده از JackHMMer، HHblits، یا MMseqs2)، (2) استنتاج ساختار مبتنی بر دسته در GPU ها، و (3) پس از پردازش نهایی برای رتبه بندی پیش بینی ها و ایجاد توطئه ها . یکی از مزیت های صرفه جویی در زمان این است که ترازهای محاسبه شده قبلی نیز قابل استفاده مجدد هستند. اسکریپت نتایج حاصل از اجراهای متعدد را برای استانداردسازی رتبهبندیها جمعآوری کرد، همانطور که در مطالعه ارزیابی انتقادی پیشبینی ساختاری 16 (CASP16) انجام شد، که در آن MassiveFold تا 8040 پیشبینی را برای هر هدف ایجاد و رتبهبندی کرد.
نتایج و بحث
مشخص شده است که MassiveFold به طور موثری تنوع و اطمینان پیشبینیهای ساختاری پروتئین را با تنظیم پارامترهای نمونهبرداری، بازیافت و نشت افزایش میدهد، بنابراین ساختارهایی با اطمینان بالا برای اهداف پروتئینی پیچیده تولید میکند. به عنوان مثال، در H1140 هدف CASP15، MassiveFold میتواند چندین ساختار متنوع با امتیازات اطمینان بالا با گسترش دامنه نمونهگیری و استفاده از حذف بدون الگو ایجاد کند.
علاوه بر این، استفاده از بازیافت گسترده تنوع ساختاری را افزایش داد، رویکردی که توسط اهداف مختلف CASP تایید شده است.
آزمایشهای مقایسه MassiveFold با AlphaFold3 روی اهداف CASP15 نشان داد که رویکرد نمونهگیری گسترده MassiveFold مدلهای خوبی را برای هفت هدف از هشت هدف ایجاد کرد، در حالی که AlphaFold3 تنها در سه مورد از هشت هدف کمی بهتر از MassiveFold عمل کرد. برنامهریزی شده است که ادغام AlphaFold3 در MassiveFold مدلهای پیشبینی آنتیژن را بیشتر تقویت کند و به طور بالقوه مزایای منحصر به فرد هر دو ابزار را ترکیب کند.
نتیجه گیری
در نتیجه، MassiveFold نشان می دهد که غلبه بر محدودیت های محاسباتی AlphaFold استاندارد، به ویژه برای مجموعه های پروتئینی بزرگ و پیچیده، قابل دستیابی است. MassiveFold استفاده از مجموعههای GPU را برای پیشبینی ساختار پروتئین در مقیاس بزرگ، متعادل کردن منابع GPU و CPU برای مدیریت کارآمد نمونههای عظیم بهینه کرده است.
این طراحی نه تنها تنوع معماری را افزایش داد و زمان محاسباتی را کاهش داد، بلکه انعطاف پذیری را برای تنظیمات چند GPU بزرگ و محیط های تک GPU نیز فراهم کرد. قابلیتهای MassiveFold آن را برای کاوش گسترده در چشمانداز پیشبینی ساختار پروتئین AlphaFold مناسب میسازد که نویدبخش کاربردهای مهم در تحقیق و کشف دارو است.