中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計-人工智慧-PHP中文網

中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計

編輯| ScienceAI

作者| 計算所張海倉學院#🎜#

作者| 計算所張海倉團隊所計算的海倉學院研究團隊提出了CarbonNovo，以端到端的方式共同設計蛋白質主鏈結構和序列。

研究以「

CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model#🎜🠎#」為題發表在機器學習會議會議 ICML 2024

中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計

背景介紹

#🎜#蛋白質從頭設計旨在創造全新的蛋白質，在藥物開發和酵素工程中有著廣泛的應用。近年來，基於AI 的蛋白質從頭設計快速發展，已被成功應用於抗體設計、小蛋白藥物設計等領域，和傳統設計方法相比，其顯著提高了設計成功率和效率。

AI 蛋白質設計得益於近幾年的兩大技術突破：

一是蛋白質結構預測領域的AlphaFold2 模型，它為蛋白質計算領域包括蛋白質設計領域，提供了基礎的神經網路模型架構、蛋白質序列表示和結構表示方法、以及先進的訓練策略（蒸餾訓練、端到端訓練）等技術；

二是AIGC 在文字、圖像、視訊生成領域的快速發展，為蛋白質設計提供了成熟的生成模型，例如DDPM, SDE, Flow Matching，Bayesian Flow Network 等。代表性的蛋白質設計模型，例如 RFDiffusion 和 Chroma 等，主要思路都是將這兩大技術融合，將蛋白質的序列和結構表示網絡嵌入到基於 AI 的生成模型框架中。

圖 1：蛋白質從頭設計的「兩階段」框架。 (來源，作者)

中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計蛋白質從頭設計主要包含兩個步驟，蛋白質主鏈結構設計與序列設計（圖1）。相應地，目前的主流模型通常採用「兩階段」框架進行：在訓練過程中，結構設計模組和序列設計模組分別訓練；在推斷過程中，首先產生主鏈結構，然後為主鏈結構產生最優序列。代表性地，領域內使用 RFDiffusion 和 ProteinMPNN 這兩個軟體，依序產生主鏈結構和序列。

蛋白質從頭設計的「兩階段」框架存在固有的限制：

(1) 序列設計模組面臨過擬合風險。序列設計模組是在準確的結晶結構上訓練的，而在推斷階段，結構模組產生的結構是包含雜訊的，其準確性與晶體結構不一致。

(2) 序列設計模組缺乏與結構設計模組的交互，設計序列無法為結構產生模組提供回饋以進一步優化產生的結構。

CarbonNovo進行端到端的結構和序列聯合設計

帶領的研究團隊提出CarbonNovo，以端到端的方式共同設計蛋白質主鏈結構與序列。論文近期已於近期發表在機器學習會議 ICML 2024 上。

圖 2：CarbonNovo 端對端產生蛋白質結構與序列。（資料來源：論文）

中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計 CarbonNovo 的主要貢獻總結如下：

1）設計了基於能量的生成模型，以端到端的方式設計主鏈結構和序列（#1）設計了基於能量的生成模型，以端到端的方式設計主鏈結構和序列（#1）設計了基於能量的生成模型，以端到端的方式設計主鏈結構和序列（#1）圖2）。先前的結構-序列共同設計模型主要針對抗體等特殊的蛋白質家族，CarbonNovo 是第一個針對所有蛋白質家族的結構-序列聯合設計模型。

2）基於 network recycling 技術，CarbonNovo 首次將蛋白質語言模型引入蛋白質結構設計任務，以利用海量天然蛋白質序列資料包含的先驗資訊。

3）CarbonNovo 採用多種技術，以提高結構-序列聯合生成模型的訓練和推斷效率，例如多階段訓練策略和用於序列採樣的離散 M-H Langevin 演算法。

蛋白質結構-序列的聯合能量模型

#🎜###

古典的な物理モデルの下では、天然のタンパク質の立体構造は比較的低い自由エネルギーを持ち、これはタンパク質の構造予測と設計の一般的な仮定でもあります。これに基づいて、CarbonNovo はタンパク質の構造と配列の結合エネルギーモデルを確立しました:

1) SE(3) 空間の拡散モデルは、主鎖構造のエネルギーを記述するために使用されます。最近の研究では、トレーニングの目的でも推論戦略の観点でも、拡散モデルをエネルギーベースのモデルに統合しました。

CarbonNovo もこれに基づいており、AI モデルの下のエネルギーと古典的な物理モデルの下のエネルギーをリンクしています。主流の拡散モデル (FrameDiff や Genie など) は、生成ネットワークとして IPA (Invariant Point Attendant network) のみを使用することに注意してください。 CarbonNovo は、AlphaFold2 モデルに三角形更新ネットワークを導入しました。これも、この研究の革新の 1 つです。

2) 償却ポッツモデルを使用して、特定の主鎖構造の下でのシーケンスエネルギーを特徴付けます。 Potts モデルは、タンパク質構造予測の分野で相同配列の共進化シグナルを学習するために使用される古典的なエネルギーモデルです。 CarbonNovo は、学習した構造表現を使用してポッツモデルをパラメータ化し、構造条件が与えられたシーケンスエネルギーモデルを構築します。

図 2 は、CarbonNovo の具体的な生成プロセスを示しています。

1) 拡散モデルに基づいて、現在のタイムステップの主チェーン構造を設計します。

2) 現在の主鎖構造を考慮して、ポッツモデルに基づいて可能なシーケンスを設計します。

3) ネットワークリサイクルメカニズムを通じて、中間シーケンスの言語モデル表現が構造モジュールに返され、より一貫性のあるシーケンス構造の生成を支援し、構造モジュール、シーケンスモジュールの統合を実現します。事前にトレーニングされた言語モデルが統合されています。

タンパク質構造配列生成のための CarbonNovo の性能評価

中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計

図 3: CarbonNovo 「2 段階」設計モデルの性能比較。 (出典: 論文)

この論文では、de novo タンパク質設計における CarbonNovo のパフォーマンスを完全に評価するためにさまざまな指標が使用されています (図 3)。たとえば、折り畳み性、多様性、新規性が一般的に使用されます。フィールド「評価指標」。また、本論文では評価指標として、言語モデルにおけるロゼッタエネルギーと尤度確率(Sequence plausibility)も用いている。

CarbonNovo は、RFdiffusion、Chroma、Genie、FrameDiff、FrameFlow など、現在主流の「2 段階」設計モデルと比較されます。 CarbonNovo は、最も重要な折り畳み性指標においてすべてのベースライン手法を大幅に上回っており、他の指標においてもベースライン手法を大幅に上回っているか、または同等です。

配列と構造を共同設計する際の CarbonNovo の利点を実証するために、著者らは ProteinMPNN を使用して配列を生成した結果も比較しました (図 3 a ～ c)。関節設計モデルにより、より一致するタンパク質骨格構造および配列を設計できることが観察できます。図 4: さまざまなタンパク質の長さでのパフォーマンスの比較。 (出典: 論文)

著者らは、さまざまな長さのタンパク質設計に対する CarbonNovo のパフォーマンスをさらに評価しました (図 4)。より短いタンパク質 (たとえば、長さ 100) を設計する場合、モデルは同様に良好に機能します。タンパク質の長さが増加するにつれて、CarbonNovo の設計パフォーマンスは「2 段階」設計モデルよりも大幅に向上します。図 5: アブレーション実験の結果。 (出典: 論文)
中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計

著者らは、CarbonNovo のパフォーマンスに対する主要コンポーネントの相対的な寄与を評価するために複数のアブレーションモデルをトレーニングしました (図 5)。言語モデル、シーケンス設計モジュール、および補助トレーニングの損失はすべて、CarbonNovo のパフォーマンスに貢献します。その中でも、言語モデルの導入が最も大きな貢献を示しています。さらに、エネルギーベースのシーケンス設計モジュールを使用すると、自己回帰モデルと比較してシーケンス設計のパフォーマンスを大幅に向上させることができます。

ケーススタディ: タンパク質構造の「補間」

図 5: すべてのベータ版よりシート構造からすべてのαヘリックス構造への勾配。 (出典: 論文)

画像生成の分野では、顔画像の補間/グラデーションは生成モデルの古典的なアプリケーションです。著者らはまた、タンパク質構造補間のために CarbonNovo を使用しようとしました。

図 5 は、潜在空間内で全アルファヘリックス構造ベクトルの重みが徐々に増加するにつれて、生成された全ベータシート構造が徐々に全アルファヘリックスに移行する代表的な例を示しています。構造。

これは、この分野でのタンパク質構造に関する最初の補間実験であり、CarbonNovo によって学習されたタンパク質の隠れ空間が比較的コンパクトであることも反映しています。

結論

最後に、著者は、CarbonNovo は主にタンパク質モノマー設計に焦点を当てているが、タンパク質複合体にも簡単に拡張できることを指摘しました。ペプチド設計、抗体設計などの材料設計、条件設計

著者チームは現在、生物実験チームと協力して、CarbonNovoが設計したタンパク質を湿式実験で検証しています。

著者が所属する CarbonMatrix チームは、AI タンパク質設計と AI 医薬品設計に長年取り組んでおり、生体高分子構造の設計と予測のための統一生成モデルを確立しています。

彼の研究結果は、ICML や NeurIPS などのトップの機械学習カンファレンスや、Nature Machine Intelligence や Nature Communications などのトップの学術雑誌で発表されており、現在は生物学研究室と協力してその応用を積極的に推進しています。ドラッグデザイン分野における産業化の実装におけるAIモデルの開発。

ペーパーリンク: https://openreview.net/pdf?id=FSxTEvuFa7

コードリンク: https:/ /github.com/zhanghaicang/carbonmatrix_public

# 🎜 🎜#

以上是中科院計算所團隊提出CarbonNovo，基於AI進行蛋白質結構和序列的端到端從頭設計的詳細內容。更多資訊請關注PHP中文網其他相關文章！