中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。-AI-php.cn

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

編集者|サイエンスAI

著者| 計算技術研究所の張海滄チーム

最近、研究所中国科学院コンピューティング技術部門の張海滄氏率いる研究チームは、CarbonNovo に対し、エンドツーエンド方式でタンパク質の主鎖構造と配列を共同設計することを提案した。

この研究は、機械学習カンファレンスICML 2024で「CarbonNovo: 統合エネルギーベースモデルを使用したタンパク質の構造と配列の共同設計」というタイトルで発表されました。

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

背景紹介

タンパク質は生物学的機能にとって重要な高分子です。 De novo タンパク質設計は、まったく新しいタンパク質を作成することを目的としており、医薬品開発や酵素工学に幅広く応用できます。

近年、AIベースのタンパク質デノボデザインは急速に発展しており、従来の設計手法と比較して、抗体設計や低分子タンパク質医薬品の設計などの分野で成功裏に使用されています。成功率と効率。

AI タンパク質の設計は、近年の 2 つの大きな技術的進歩の恩恵を受けています:

1 つ目は、タンパク質構造予測の分野における AlphaFold2 モデルであり、これは、タンパク質設計を含むタンパク質コンピューティングの分野。基本的なニューラルネットワークモデルアーキテクチャ、タンパク質配列表現および構造表現方法、高度なトレーニング戦略 (蒸留トレーニング、エンドツーエンドトレーニング) およびその他のテクノロジーを提供します。 #

2 つ目は、テキスト、画像の AIGC です。ビデオ生成分野の急速な発展により、DDPM、SDE、フローマッチング、ベイジアンフローネットワークなど、タンパク質設計のための成熟した生成モデルが提供されています。 RFDiffusion や Chroma などの代表的なタンパク質設計モデルの主なアイデアは、これら 2 つの技術を統合し、タンパク質の配列と構造表現ネットワークを AI ベースの生成モデルフレームワークに組み込むことです。

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

図 1: de novo タンパク質設計の「2 段階」フレームワーク。 (出典、著者)

De novoタンパク質設計には、主にタンパク質骨格構造設計と配列設計の2つのステップが含まれます(図1)。したがって、現在の主流モデルは通常、「2 段階」フレームワークを採用しています。トレーニングプロセスでは、構造設計モジュールとシーケンス設計モジュールが別々にトレーニングされ、最初にメインチェーン構造が生成され、次に最適なチェーン構造が生成されます。主鎖構造が生成されます。代表的には、RFDiffusion と ProteinMPNN という 2 つのソフトウェアが現場で使用され、主鎖の構造と配列が順番に生成されます。

de novo タンパク質設計の「2 段階」フレームワークには固有の制限があります:

(1) 配列設計モジュールはオーバーフィッティングのリスクに直面します。シーケンス設計モジュールは正確な結晶構造に基づいてトレーニングされますが、推論段階では、構造モジュールによって生成された構造にはノイズが多く、その精度は結晶構造と一致しません。

(2) シーケンス設計モジュールには構造設計モジュールとの相互作用が欠けており、設計シーケンスは生成された構造をさらに最適化するために構造生成モジュールにフィードバックを提供できません。

CarbonNovo はエンドツーエンドの構造とシーケンスの結合設計を実行します

「2 段階」フレームワークの制限に対応して、タンパク質設計、中国科学院計算技術研究所のZhang Haicang氏同氏率いる研究チームは、エンドツーエンド方式でタンパク質の主鎖構造と配列を共同設計することをCarbonNovoに提案した。この論文は最近、機械学習カンファレンス ICML 2024 で発表されました。

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

図 2: CarbonNovo はタンパク質の構造と配列をエンドツーエンドで生成します。 (出典: 論文)

CarbonNovo の主な貢献は次のように要約されます:

1) エネルギーベースの発電モデルを設計し、主鎖構造と最終シーケンスを設計しました。ツーエンド方式 (図 2)。これまでの構造-配列結合設計モデルは、主に抗体などの特殊なタンパク質ファミリーを対象としていました。CarbonNovo は、すべてのタンパク質ファミリーを対象とした初の構造-配列結合設計モデルです。

2) ネットワークリサイクル技術に基づいて、CarbonNovo は初めてタンパク質構造設計タスクにタンパク質言語モデルを導入し、大量の天然タンパク質配列データに含まれる事前情報を利用します。

3) CarbonNovo は、多段階トレーニング戦略やシーケンスサンプリング用の離散 M-H ランジュバンアルゴリズムなど、構造シーケンス結合生成モデルのトレーニングと推論の効率を向上させるために複数の手法を採用しています。

タンパク質構造-配列の結合エネルギーモデル

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

Dans le modèle physique classique, la conformation naturelle des protéines a une énergie libre relativement faible, ce qui constitue également une hypothèse générale pour la prédiction et la conception de la structure des protéines. Sur cette base, CarbonNovo a établi un modèle énergétique conjoint de la structure et de la séquence des protéines :

1) Utilisez le modèle de diffusion de l'espace SE(3) pour décrire l'énergie de la structure de la chaîne principale. Certaines recherches récentes, que ce soit en termes d'objectifs de formation ou de stratégies d'inférence, ont unifié le modèle de diffusion sous le modèle énergétique.

CarbonNovo est également basé sur cela, reliant l'énergie sous le modèle IA et l'énergie sous le modèle physique classique. Il convient de souligner que les modèles de diffusion grand public (tels que FrameDiff et Genie) utilisent uniquement l'IPA (Invariant Point Attention network) comme réseau générateur. CarbonNovo a introduit le réseau de mise à jour triangulaire dans le modèle AlphaFold2, qui est également l'une des innovations de ce travail.

2) Utilisez le modèle de Potts amorti pour décrire l'énergie de séquence sous une structure de chaîne principale donnée. Le modèle de Potts est un modèle énergétique classique utilisé pour apprendre les signaux de coévolution dans des séquences homologues dans le domaine de la prédiction de la structure des protéines. CarbonNovo utilise la représentation structurelle apprise pour paramétrer le modèle de Potts afin de construire un modèle énergétique séquentiel compte tenu des conditions structurelles.

La figure 2 montre le processus de génération spécifique de CarbonNovo :

1) Concevoir la structure de chaîne principale du pas de temps actuel sur la base du modèle de diffusion.

2) Compte tenu de la structure actuelle de la chaîne principale, concevez des séquences possibles basées sur le modèle de Potts.

3) Grâce au mécanisme de recyclage du réseau, la représentation du modèle de langage de la séquence intermédiaire est renvoyée au module de structure pour aider à générer une structure de séquence plus cohérente, réalisant ainsi l'unification du module de structure, du module de séquence et du modèle de langage pré-entraîné. .

Évaluation des performances de CarbonNovo pour générer une structure-séquence de protéines

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

Figure 3 : Comparaison des performances entre CarbonNovo et le modèle de conception « en deux étapes ». (Source : article)

L'article utilise une variété d'indicateurs pour évaluer pleinement les performances de CarbonNovo dans la conception de protéines de novo (Figure 3). Par exemple, la pliabilité, la diversité et la nouveauté sont des indicateurs d'évaluation couramment utilisés dans le domaine. En outre, l'article utilise également l'énergie de Rosetta et la probabilité de vraisemblance (plausibilité des séquences) sous le modèle linguistique comme indicateurs d'évaluation.

CarbonNovo est comparé aux modèles de conception « à deux étages » actuels, tels que RFdiffusion, Chroma, Genie, FrameDiff et FrameFlow. CarbonNovo dépasse considérablement toutes les méthodes de base dans l'indicateur de pliabilité le plus critique, et dépasse également considérablement ou est équivalent à la méthode de base dans d'autres indicateurs.

Pour démontrer les avantages de CarbonNovo dans la conception conjointe de séquences et de structures, les auteurs ont également comparé les résultats de la génération de séquences à l'aide de ProteinMPNN (Figure 3 a-c). On peut observer que le modèle de conception conjointe peut concevoir des structures et des séquences de squelette protéique plus adaptées.

Figure 4 : Comparaison des performances à différentes longueurs de protéines. (Source : article)

Les auteurs ont évalué en outre les performances de CarbonNovo sur des conceptions de protéines de différentes longueurs (Figure 4). Lors de la conception de protéines plus courtes (par exemple, longueur 100), les modèles fonctionnent tout aussi bien. À mesure que la longueur de la protéine augmente, les performances de conception de CarbonNovo sont nettement meilleures que celles du modèle de conception « en deux étapes ».

Expérience d'ablation

Figure 5 : Résultats de l'expérience d'ablation. (Source : article)

Les auteurs ont formé plusieurs modèles d'ablation pour évaluer la contribution relative des composants clés aux performances de CarbonNovo (Figure 5). Les modèles de langage, les modules de conception de séquences et les pertes de formation auxiliaires contribuent tous aux performances de CarbonNovo. Parmi eux, l’introduction de modèles linguistiques présente la contribution la plus significative. De plus, l’utilisation du module de conception de séquences basé sur l’énergie peut améliorer considérablement les performances de conception de séquences par rapport au modèle autorégressif.

Étude de cas : "interpolation" de la structure protéique

中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。

Figure 5 : Dégradé de toutes les structures de feuillets bêta à toutes les structures d'hélices alpha. (Source : Paper)

Dans le domaine de la génération d'images, l'interpolation/dégradé d'images de visage est une application classique des modèles génératifs. Les auteurs ont également essayé d’utiliser CarbonNovo pour l’interpolation de la structure des protéines.

La figure 5 montre un exemple représentatif. À mesure que le poids du vecteur de structure entièrement en hélices alpha augmente progressivement dans l'espace latent, la structure entièrement en feuilles bêta générée passera progressivement à la structure entièrement en hélices alpha.

Il s'agit de la première expérience d'interpolation sur la structure des protéines sur le terrain, et elle reflète également que l'espace caché des protéines appris par CarbonNovo est relativement compact.

Conclusion

Enfin, l'auteur a souligné que bien que CarbonNovo se concentre principalement sur la conception de monomères protéiques, il peut également être facilement étendu aux complexes protéiques Conception des matériaux et conception des conditions, telles que la conception des peptides, la conception des anticorps, etc.

L'équipe d'auteurs travaille actuellement avec l'équipe d'expérimentation biologique pour vérifier la protéine conçue par CarbonNovo à travers des expériences humides.

L'équipe CarbonMatrix où travaille l'auteur est engagée depuis longtemps dans la conception de protéines d'IA et la conception de médicaments d'IA, et établit un modèle de génération unifié pour la conception et la prédiction des structures de macromolécules biologiques.

Ses résultats de recherche ont été publiés dans les principales conférences sur l'apprentissage automatique telles que ICML et NeurIPS et dans des revues universitaires de premier plan telles que Nature Machine Intelligence et Nature Communications. Il coopère également actuellement avec des laboratoires de biologie pour promouvoir activement l'application. des modèles d'IA dans la mise en œuvre de l'industrialisation dans le domaine de la conception de médicaments.

Lien papier : https://openreview.net/pdf?id=FSxTEvuFa7

Lien code : https:/ /github.com/zhanghaicang/carbonmatrix_public

#🎜 🎜#

以上が中国科学院計算技術研究所のチームは、タンパク質の構造と配列を AI ベースでエンドツーエンドのデノボ設計する CarbonNovo を提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。