Une équipe de l'Institut de technologie informatique de l'Académie chinoise des sciences a proposé CarbonNovo, une conception de novo de bout en bout basée sur l'IA de structures et de séquences protéiques.-IA-php.cn

Éditeur | ScienceAI

Auteur | Équipe Zhang Haicang de l'Institut de technologie informatique

Récemment, l'équipe de recherche dirigée par Zhang Haicang de l'Institut de technologie informatique de l'Académie chinoise des sciences a proposé à CarbonNovo de concevoir conjointement la protéine structure et séquence du squelette de bout en bout.

Cette recherche a été publiée lors de la conférence d'apprentissage automatique ICML 2024 sous le titre "CarbonNovo : Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model".

Introduction générale

Les protéines sont des macromolécules importantes pour les fonctions biologiques. La conception de protéines de novo vise à créer des protéines entièrement nouvelles et a de larges applications dans le développement de médicaments et l’ingénierie enzymatique.

Ces dernières années, la conception de novo de protéines basée sur l'IA s'est développée rapidement et a été utilisée avec succès dans des domaines tels que la conception d'anticorps et la conception de médicaments à petites protéines. Par rapport aux méthodes de conception traditionnelles, elle a considérablement amélioré le taux de réussite et l'efficacité de la conception.

La conception de protéines par l'IA a bénéficié de deux avancées technologiques majeures ces dernières années :

Le premier est le modèle AlphaFold2 dans le domaine de la prédiction de la structure des protéines, qui fournit une architecture de modèle de réseau neuronal de base et une séquence de protéines pour le domaine de l'informatique des protéines, y compris la conception de protéines. Méthodes de représentation et de représentation de structure, ainsi que des stratégies de formation avancées (formation à la distillation, formation de bout en bout) et d'autres technologies

Deuxièmement, le développement rapide de l'AIGC dans le domaine du texte, de l'image et de la vidéo ; La génération fournit un modèle de génération mature pour la conception de protéines, par exemple DDPM, SDE, Flow Matching, Bayesian Flow Network, etc. Les idées principales des modèles de conception de protéines représentatifs, tels que RFDiffusion et Chroma, sont d'intégrer ces deux technologies et d'intégrer le réseau de représentation de séquences et de structures protéiques dans un cadre de modèle génératif basé sur l'IA.

Figure 1 : Cadre « en deux étapes » pour la conception de protéines de novo. (Source, auteur)

La conception de protéines de novo comprend principalement deux étapes : la conception de la structure du squelette protéique et la conception des séquences (Figure 1). En conséquence, les modèles traditionnels actuels adoptent généralement un cadre « en deux étapes » : pendant le processus de formation, le module de conception de structure et le module de conception de séquence sont formés séparément pendant le processus d'inférence, la structure de la chaîne principale est d'abord générée, puis la structure optimale ; La structure de la chaîne principale est générée. De manière représentative, les deux logiciels RFDiffusion et ProteinMPNN sont utilisés sur le terrain pour générer tour à tour la structure et la séquence de la chaîne principale.

Le cadre « en deux étapes » pour la conception de protéines de novo présente des limites inhérentes :

(1) Le module de conception de séquences est confronté au risque de surajustement. Le module de conception de séquences est formé sur des structures cristallographiques précises, alors que pendant la phase d'inférence, les structures générées par le module de structure sont bruitées et leur précision n'est pas cohérente avec la structure cristalline.

(2) Le module de conception de séquence manque d'interaction avec le module de conception de structure, et la séquence de conception ne peut pas fournir de retour au module de génération de structure pour optimiser davantage la structure générée.

CarbonNovo réalise une conception conjointe de bout en bout de la structure et de la séquence

En réponse aux limites du cadre « en deux étapes » pour la conception des protéines, une équipe de recherche dirigée par Zhang Haicang de l'Institute of Computing Technology, L'Académie chinoise des sciences a proposé à CarbonNovo de concevoir conjointement des structures de chaînes principales de protéines de bout en bout. L'article a été récemment publié lors de la conférence sur l'apprentissage automatique ICML 2024.

Figure 2 : CarbonNovo génère des structures et des séquences protéiques de bout en bout. (Source : article)

Les principales contributions de CarbonNovo sont résumées comme suit :

1) Conception d'un modèle de génération basé sur l'énergie pour concevoir la structure et la séquence de la chaîne principale de bout en bout (Figure 2). Les précédents modèles de conception conjointe structure-séquence étaient principalement destinés à des familles de protéines spéciales telles que les anticorps. CarbonNovo est le premier modèle de conception conjointe structure-séquence pour toutes les familles de protéines.

2) Basé sur la technologie de recyclage de réseau, CarbonNovo introduit pour la première fois des modèles de langage protéique dans les tâches de conception de structure protéique afin d'utiliser les informations préalables contenues dans les données massives de séquences de protéines naturelles.

3) CarbonNovo adopte plusieurs techniques pour améliorer l'efficacité de la formation et de l'inférence des modèles de génération conjointe structure-séquence, telles que la stratégie de formation en plusieurs étapes et l'algorithme discret M-H Langevin pour l'échantillonnage de séquence.

Modèle énergétique commun de la structure-séquence des protéines

在經典物理模型下，天然蛋白質構象具有比較低的自由能，這也是蛋白質結構預測和設計的一般假設。基於此，CarbonNovo 建立了蛋白質結構和序列的聯合能量模型:

1) 採用SE(3)空間的擴散模型刻畫主鏈結構能量。最近的一些研究，無論是在訓練目標或推理策略方面，都已將擴散模型統一在能量模型（Energy-based model）下。

CarbonNovo也是基於此，將AI模型下的能量和經典物理模型下的能量連結在一起。需要指出的是，主流擴散模型（例如 FrameDiff 和 Genie）只是用IPA (Invariant Point Attention network)作為生成網路。而 CarbonNovo 引進了 AlphaFold2 模型裡的三角更新網絡，也是這項工作的創新之一。

2) 以 amortized Potts 模型刻畫給定主鏈結構下的序列能量。 Potts 模型是經典的能量模型，在蛋白質結構預測領域被用來學習同源序列中的共進化訊號。 CarbonNovo 利用學習到的結構表示來參數化 Potts 模型，建立給定結構條件的序列能量模型。

圖 2 展示了 CarbonNovo 的具體生成過程:

1) 基於擴散模型設計出當前時間步的主鏈結構。

2) 給定目前的主鏈結構，基於 Potts 模型設計出可能的序列。

3) 透過network recycling 機制，將中間序列的語言模型表示回傳到結構模組來幫助產生更一致的序列-結構，實現了結構模組、序列模組和預訓練語言模型的統一。

CarbonNovo 產生蛋白質結構-序列的效能評估

「兩階段」設計模型的效能比較。（資料來源：論文） Une équipe de lInstitut de technologie informatique de lAcadémie chinoise des sciences a proposé CarbonNovo, une conception de novo de bout en bout basée sur lIA de structures et de séquences protéiques.

Une équipe de lInstitut de technologie informatique de lAcadémie chinoise des sciences a proposé CarbonNovo, une conception de novo de bout en bout basée sur lIA de structures et de séquences protéiques.

論文採用多種指標充分評估了CarbonNovo 在蛋白質從頭設計方面的表現（圖3），例如，可折疊性、多樣性、新穎性是領域內常用的評價指標。此外，論文也採用了 Rosetta 能量和語言模型下的似然機率（Sequence plausibility）作為評估指標。

CarbonNovo 和當前主流的「兩階段」設計模型做了比較，例如 RFdiffusion, Chroma, Genie, FrameDiff 和 FrameFlow。在最關鍵的可折疊性指標上 CarbonNovo 顯著超過了所有基線方法，在其他指標上也顯著超過基線方法或和基線方法相當。

為了展示 CarbonNovo 在共同設計序列與結構上的優勢，作者也比較了使用 ProteinMPNN 產生序列的結果（圖 3 a-c）。可以觀察到，聯合設計模型可以設計出更匹配的蛋白質主鏈結構和序列。

圖 4：在不同蛋白質長度下的表現比較。（資料來源：論文） Une équipe de lInstitut de technologie informatique de lAcadémie chinoise des sciences a proposé CarbonNovo, une conception de novo de bout en bout basée sur lIA de structures et de séquences protéiques.

作者進一步評估了 CarbonNovo 在不同長度的蛋白質設計上的表現（圖 4）。在設計比較短的蛋白質時（例如長度 100），各個模型的表現相當。而隨著蛋白質長度成長，CarbonNovo 的設計表現顯著優於「兩階段」設計模型。

消融實驗

#🎜#p （資料來源：論文）

作者訓練了多個消融模型，以評估關鍵組件對 CarbonNovo 表現的相對貢獻（圖 5）。語言模型、序列設計模組和輔助訓練損失對 CarbonNovo 的表現都有貢獻。其中，語言模型的引入表現出最顯著的貢獻。此外，使用基於能量的序列設計模組來相比自回歸模型，也能顯著提升序列設計的效能。 Une équipe de lInstitut de technologie informatique de lAcadémie chinoise des sciences a proposé CarbonNovo, une conception de novo de bout en bout basée sur lIA de structures et de séquences protéiques.

Case study：蛋白質結構「插值」

#🎜#f fee🎜

#🎜#f fee#a#p -sheets 結構到all alpha-helices 結構的漸變。（資料來源：論文）

在影像產生領域，人臉圖片插值/漸層是生成模型比較經典的應用。作者也嘗試利用 CarbonNovo 進行蛋白質結構的內插。

Une équipe de lInstitut de technologie informatique de lAcadémie chinoise des sciences a proposé CarbonNovo, une conception de novo de bout en bout basée sur lIA de structures et de séquences protéiques. 圖 5 展示了一個代表例子，隨著在隱空間逐漸增加 all alpha-helices 結構向量的權重，產生的 all beta-sheets 結構會逐漸過渡到 all alpha-helices 結構。