MacMasta — Новости и статьи

Исследователи Apple создали SimpleFold: облегченный ИИ для предсказания структуры белков

Исследователи Apple создали SimpleFold: облегченный ИИ для предсказания структуры белков

Дата: 01.01.1970 | Просмотров: 69

Работа Google DeepMind над AlphaFold стала настоящим прорывом, однако она требует огромных вычислительных ресурсов.

В связи с этим исследователи из Apple взялись за разработку альтернативного метода использования ИИ для предсказания трёхмерной структуры белков, и их подход выглядит многообещающе.

Подробности — ниже.

Если вы не знакомы с AlphaFold, это революционная модель ИИ от Google DeepMind, способная предсказать 3D-структуру белка по его аминокислотной последовательности.

Это особенно ценно для разработки более эффективных лекарств, а также совершенно новых материалов.

Ещё несколько лет назад это была невероятно сложная задача.

Предсказание трёхмерной атомной структуры одного белка могло занимать месяцы, а то и годы.

Но благодаря AlphaFold, а теперь и AlphaFold2, а также другим передовым моделям, таким как RoseTTAFold и ESMFold, этот процесс предсказания занимает всего несколько часов или даже минут, в зависимости от используемого оборудования.

Каждая из этих моделей использует собственные методы и архитектуры для достижения высокой точности, но, в целом, они требуют крайне затратных вычислений и имеют очень жёсткую структуру.

Как отмечают исследователи Apple, их цель — «создать простую, но мощную белковую структуру, которая была бы эффективна в вычислительном отношении и не требовала бы трудоёмких этапов предварительной обработки данных или сложных архитектурных компонентов».

В своей предложенной модели, получившей название SimpleFold, вместо reliance на «MSA, карты парных взаимодействий, треугольные updates или любые другие эквивариантные геометрические модули», Apple использует так называемые flow matching модели, которые были представлены в 2023 году и стали очень популярны для моделей text-to-image и text-to-3D.

Если кратко, flow matching модели — это эволюция diffusion-моделей, о которых мы рассказывали в этой статье.

Но вместо того, чтобы просто итеративно удалять шум из начального изображения, они изучают более плавный путь, который превращает случайный шум сразу в готовое изображение за один проход.

И поскольку этот метод пропускает многие этапы удаления шума, он менее требователен к вычислениям и генерирует результаты быстрее.

Исследователи Apple обучили SimpleFold в нескольких вариантах размера: 100M, 360M, 700M, 1.1B, 1.6B и 3B параметров и оценили их на «двух широко принятых эталонах для предсказания структуры белков: CAMEO22 и CASP14, которые являются строгими тестами на обобщение, устойчивость и атомарную точность фолдинг-моделей».

Результаты оказались весьма обнадёживающими: «SimpleFold демонстрирует конкурентоспособную или превосходящую точность по сравнению с современными методами, сохраняя при этом значительно более простую архитектуру и более высокую вычислительную эффективность».

Также они наблюдали улучшение производительности в соответствии с масштабированием, что означает, что более крупные модели с большим объемом обучающих данных стабильно обеспечивают лучшую производительность предсказания структуры, особенно на самых сложных тестах.

В заключение они отмечают, что SimpleFold — это лишь первый шаг, и заявляют, что «надеются, что эта работа послужит импульсом для сообщества к созданию эффективных и мощных генеративных моделей белков».