MassiveFold پیش بینی ساختار پروتئین را از طریق پردازش موازی کارآمد پیش می برد

با استفاده از MassiveFold، دانشمندان پتانسیل کامل AlphaFold را به کار گرفتند و پیش‌بینی پروتئین با اطمینان بالا را سریع‌تر و آسان‌تر کردند و باعث پیشرفت‌هایی در زیست‌شناسی و کشف دارو شدند.

اتصال مختصر: MassiveFold: آشکار کردن پتانسیل پنهان AlphaFold از طریق نمونه برداری گسترده موازی. اعتبار تصویر: هوش مصنوعی Shutterstockاتصال مختصر: MassiveFold: آشکار کردن پتانسیل پنهان AlphaFold از طریق نمونه برداری گسترده موازی. اعتبار تصویر: هوش مصنوعی Shutterstock

در مطالعه اخیر منتشر شده در مجله علوم طبیعی محاسباتیمحققان فرانسوی MassiveFold را توسعه داده اند، نسخه بهبود یافته AlphaFold که به طور خاص برای پردازش موازی طراحی شده است. هدف آنها کاهش زمان پیش‌بینی ساختارهای پروتئینی از ماه‌ها به ساعت‌ها بود. آنها دریافتند که MassiveFold به طور موثر مدل‌سازی ساختاری پروتئین‌ها و مجموعه‌های پروتئین را بهبود می‌بخشد در حالی که هزینه‌های محاسباتی را کاهش می‌دهد، کیفیت پیش‌بینی و مقیاس‌پذیری را در تنظیمات سخت‌افزاری مختلف افزایش می‌دهد.

پس زمینه

AlphaFold و AlphaFold Protein Structure Database دسترسی به پیش‌بینی‌های ساختار پروتئین را تغییر داده‌اند و مدل‌سازی زنجیره‌های منفرد و مجموعه‌های پروتئینی پیچیده را ممکن می‌سازند. با این حال، علیرغم مزایای نمونه برداری فشرده با استفاده از AlphaFold، هنوز از نظر محاسباتی نیازمند و زمان بر است.

نمونه‌برداری انبوه نشان داده است که تنوع ساختاری و تنوع ساختاری در مونومرها و کمپلکس‌های پروتئینی، از جمله مجموعه‌های پیچیده مانند مجتمع‌های نانوبادی و برهمکنش‌های آنتی ژن-آنتی‌بادی را نشان می‌دهد. اما این نمونه‌های بالاتر، اگرچه دقت پیش‌بینی را بهبود می‌بخشند، اما از نظر تقاضای GPU و زمان‌های پردازش طولانی با چالش‌های مهمی همراه هستند.

به طور خاص، واحد پردازش گرافیکی بالا (GPU) AlphaFold و ناتوانی آن در اجرای موازی محدودیت‌های عملی ایجاد می‌کند. اجرای استاندارد AlphaFold-Multimer، به ویژه برای مجموعه های بزرگ، اغلب از زمان های کلاستر GPU مشخص شده توسط زیرساخت های محاسباتی فراتر می رود، که مانع از تکمیل پیش بینی های پیچیده می شود. این امر درک پتانسیل کامل AlphaFold در محدودیت‌های منابع GPU فعلی را دشوار می‌کند، و انگیزه ایجاد راه‌حل‌های کارآمدتر برای پیش‌بینی‌های ساختاری تک زنجیره‌ای و پیچیده را فراهم می‌کند.

برای مقابله با این چالش‌ها، محققان در این مطالعه MassiveFold را توسعه دادند، نسخه‌ای موازی و قابل تنظیم AlphaFold که وظایف محاسباتی را بین CPU و GPU توزیع می‌کند تا پیش‌بینی ساختارهای پروتئین را تسریع بخشد.

در مورد مطالعه

نسخه 1.2.5 MassiveFold که در Bash و Python 3 توسعه یافته است، ترکیبی از قابلیت‌های پیش‌بینی ساختار AlphaFold با نمونه‌برداری بهبودیافته از طریق AFmassive یا ColabFold و موازی‌سازی بهبود یافته در CPU و GPU است. این برنامه برای انعطاف‌پذیری طراحی شده است و به کاربران امکان می‌دهد تا پارامترهایی مانند نرخ نشت، استفاده از الگو و مراحل بازیافت تعریف شده در فایل علامت‌گذاری شی جاوا اسکریپت (JSON) را برای افزایش تنوع ساختاری تنظیم کنند. SLURM Workload Manager به طور موثر منابع را با تنظیم اندازه دسته‌ای متعادل می‌کند تا اطمینان حاصل شود که وظایف در زمان مشخص انجام می‌شوند.

این فرآیند شامل مراحل زیر است: (1) ایجاد هم ترازی بر روی هسته های CPU (با استفاده از JackHMMer، HHblits، یا MMseqs2)، (2) استنتاج ساختار مبتنی بر دسته در GPU ها، و (3) پس از پردازش نهایی برای رتبه بندی پیش بینی ها و ایجاد توطئه ها . یکی از مزیت های صرفه جویی در زمان این است که ترازهای محاسبه شده قبلی نیز قابل استفاده مجدد هستند. اسکریپت نتایج حاصل از اجراهای متعدد را برای استانداردسازی رتبه‌بندی‌ها جمع‌آوری کرد، همانطور که در مطالعه ارزیابی انتقادی پیش‌بینی ساختاری 16 (CASP16) انجام شد، که در آن MassiveFold تا 8040 پیش‌بینی را برای هر هدف ایجاد و رتبه‌بندی کرد.

نتایج و بحث

مشخص شده است که MassiveFold به طور موثری تنوع و اطمینان پیش‌بینی‌های ساختاری پروتئین را با تنظیم پارامترهای نمونه‌برداری، بازیافت و نشت افزایش می‌دهد، بنابراین ساختارهایی با اطمینان بالا برای اهداف پروتئینی پیچیده تولید می‌کند. به عنوان مثال، در H1140 هدف CASP15، MassiveFold می‌تواند چندین ساختار متنوع با امتیازات اطمینان بالا با گسترش دامنه نمونه‌گیری و استفاده از حذف بدون الگو ایجاد کند.

علاوه بر این، استفاده از بازیافت گسترده تنوع ساختاری را افزایش داد، رویکردی که توسط اهداف مختلف CASP تایید شده است.

آزمایش‌های مقایسه MassiveFold با AlphaFold3 روی اهداف CASP15 نشان داد که رویکرد نمونه‌گیری گسترده MassiveFold مدل‌های خوبی را برای هفت هدف از هشت هدف ایجاد کرد، در حالی که AlphaFold3 تنها در سه مورد از هشت هدف کمی بهتر از MassiveFold عمل کرد. برنامه‌ریزی شده است که ادغام AlphaFold3 در MassiveFold مدل‌های پیش‌بینی آنتی‌ژن را بیشتر تقویت کند و به طور بالقوه مزایای منحصر به فرد هر دو ابزار را ترکیب کند.

نتیجه گیری

در نتیجه، MassiveFold نشان می دهد که غلبه بر محدودیت های محاسباتی AlphaFold استاندارد، به ویژه برای مجموعه های پروتئینی بزرگ و پیچیده، قابل دستیابی است. MassiveFold استفاده از مجموعه‌های GPU را برای پیش‌بینی ساختار پروتئین در مقیاس بزرگ، متعادل کردن منابع GPU و CPU برای مدیریت کارآمد نمونه‌های عظیم بهینه کرده است.

این طراحی نه تنها تنوع معماری را افزایش داد و زمان محاسباتی را کاهش داد، بلکه انعطاف پذیری را برای تنظیمات چند GPU بزرگ و محیط های تک GPU نیز فراهم کرد. قابلیت‌های MassiveFold آن را برای کاوش گسترده در چشم‌انداز پیش‌بینی ساختار پروتئین AlphaFold مناسب می‌سازد که نویدبخش کاربردهای مهم در تحقیق و کشف دارو است.

منبع