Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.-KI-php.cn

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

Herausgeber |. ScienceAI

Autor |. Zhang Haicang-Team vom Institut für Computertechnologie

Kürzlich schlug das Forschungsteam unter der Leitung von Zhang Haicang vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften CarbonNovo vor, das Protein gemeinsam zu entwerfen Backbone-Struktur und -Sequenz durchgängig.

Diese Forschung wurde auf der Machine-Learning-Konferenz ICML 2024 unter dem Titel „CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model“ veröffentlicht.

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

Hintergrundeinführung

Proteine sind wichtige Makromoleküle für biologische Funktionen. Das De-novo-Proteindesign zielt auf die Schaffung völlig neuer Proteine ab und findet breite Anwendung in der Arzneimittelentwicklung und Enzymtechnik.

In den letzten Jahren hat sich das KI-basierte Protein-De-novo-Design rasant entwickelt und wurde erfolgreich in Bereichen wie dem Antikörperdesign und dem Design kleiner Proteinmedikamente eingesetzt. Im Vergleich zu herkömmlichen Designmethoden hat es die Erfolgsquote und Effizienz des Designs erheblich verbessert.

KI-Proteindesign hat in den letzten Jahren von zwei großen technologischen Durchbrüchen profitiert:

Das erste ist das AlphaFold2-Modell im Bereich der Proteinstrukturvorhersage, das eine grundlegende neuronale Netzwerkmodellarchitektur und Proteinsequenz für den Bereich der Proteinberechnung bereitstellt. einschließlich Proteindesign- und Strukturdarstellungsmethoden sowie fortgeschrittener Trainingsstrategien (Destillationstraining, End-to-End-Training)

Zweitens die rasante Entwicklung von AIGC im Bereich Text, Bild und Video generation bietet ein ausgereiftes Generationsmodell für das Proteindesign, zum Beispiel DDPM, SDE, Flow Matching, Bayesian Flow Network usw. Die Hauptideen repräsentativer Proteindesignmodelle wie RFDiffusion und Chroma bestehen darin, diese beiden Technologien zu integrieren und das Proteinsequenz- und Strukturdarstellungsnetzwerk in ein KI-basiertes generatives Modellgerüst einzubetten.

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

Abbildung 1: „Zweistufiger“ Rahmen für das De-novo-Proteindesign. (Quelle, Autor)

De-novo-Proteindesign umfasst hauptsächlich zwei Schritte: Design der Proteinrückgratstruktur und Sequenzdesign (Abbildung 1). Dementsprechend verwenden aktuelle Mainstream-Modelle normalerweise ein „zweistufiges“ Framework: Während des Trainingsprozesses werden das Strukturdesignmodul und das Sequenzdesignmodul separat trainiert, während im Inferenzprozess zuerst die Hauptkettenstruktur und dann die optimale Struktur generiert wird Die Hauptkettenstruktur wird generiert. Repräsentativ werden die beiden Softwareprogramme RFDiffusion und ProteinMPNN in der Praxis verwendet, um nacheinander die Struktur und Sequenz der Hauptkette zu generieren.

Das „zweistufige“ Framework für das De-novo-Proteindesign weist inhärente Einschränkungen auf:

(1) Beim Sequenzdesignmodul besteht die Gefahr einer Überanpassung. Das Sequenzdesign-Modul wird auf genaue kristallographische Strukturen trainiert, wohingegen während der Inferenzphase die vom Strukturmodul erzeugten Strukturen verrauscht sind und ihre Genauigkeit nicht mit der Kristallstruktur übereinstimmt.

(2) Dem Sequenzdesignmodul fehlt die Interaktion mit dem Strukturdesignmodul, und die Designsequenz kann dem Strukturgenerierungsmodul kein Feedback geben, um die generierte Struktur weiter zu optimieren.

CarbonNovo führt ein durchgängiges gemeinsames Design von Struktur und Sequenz durch

Als Reaktion auf die Einschränkungen des „zweistufigen“ Rahmenwerks für das Proteindesign hat ein Forschungsteam unter der Leitung von Zhang Haicang vom Institute of Computing Technology, Die Chinesische Akademie der Wissenschaften schlug CarbonNovo vor, gemeinsam die Strukturen der Proteinhauptkette durchgängig und sequenziell zu entwerfen. Das Papier wurde kürzlich auf der Machine-Learning-Konferenz ICML 2024 veröffentlicht.

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

Abbildung 2: CarbonNovo generiert End-to-End-Proteinstrukturen und -sequenzen. (Quelle: Papier)

Die wichtigsten Beiträge von CarbonNovo lassen sich wie folgt zusammenfassen:

1) Entwarf ein energiebasiertes Erzeugungsmodell, um die Hauptkettenstruktur und -sequenz durchgängig zu gestalten (Abbildung 2). Bisherige Struktur-Sequenz-Joint-Design-Modelle waren hauptsächlich auf spezielle Proteinfamilien wie Antikörper ausgerichtet. CarbonNovo ist das erste Struktur-Sequenz-Joint-Design-Modell für alle Proteinfamilien.

2) Basierend auf der Netzwerk-Recycling-Technologie führt CarbonNovo zum ersten Mal Protein-Sprachmodelle in Proteinstruktur-Design-Aufgaben ein, um die in umfangreichen natürlichen Proteinsequenzdaten enthaltenen Vorinformationen zu nutzen.

3) CarbonNovo verwendet mehrere Techniken, um die Trainings- und Inferenzeffizienz von Struktur-Sequenz-Joint-Generierungsmodellen zu verbessern, wie z. B. eine mehrstufige Trainingsstrategie und einen diskreten M-H-Langevin-Algorithmus für die Sequenzabtastung.

Gemeinsames Energiemodell der Proteinstruktur-Sequenz

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

在经典物理模型下，天然蛋白质构象具有比较低的自由能，这也是蛋白质结构预测和设计的一般假设。基于此，CarbonNovo 建立了蛋白质结构和序列的联合能量模型:

1) 采用SE(3)空间的扩散模型刻画主链结构能量。最近的一些研究，无论是在训练目标还是推理策略方面，都已将扩散模型统一在能量模型（Energy-based model）下。

CarbonNovo也是基于此，将AI模型下的能量和经典物理模型下的能量联系在一起。需要指出的是，主流扩散模型（例如 FrameDiff 和 Genie）只是用IPA (Invariant Point Attention network)作为生成网络。而 CarbonNovo 引入了 AlphaFold2 模型里的三角更新网络，也是该工作的创新之一。

2) 采用 amortized Potts 模型刻画给定主链结构下的序列能量。Potts 模型是经典的能量模型，在蛋白质结构预测领域被用来学习同源序列中的共进化信号。CarbonNovo 利用学习到的结构表示来参数化 Potts 模型，建立给定结构条件的序列能量模型。

图 2 展示了 CarbonNovo 的具体生成过程:

1) 基于扩散模型设计出当前时间步的主链结构。

2) 给定当前的主链结构，基于 Potts 模型设计出可能的序列。

3) 通过 network recycling 机制，将中间序列的语言模型表示回传到结构模块来帮助生成更一致的序列-结构，实现了结构模块、序列模块和预训练语言模型的统一。

CarbonNovo 生成蛋白质结构-序列的性能评测

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

图 3：CarbonNovo 和「两阶段」设计模型的性能比较。（来源：论文）

论文采用多种指标充分评价了 CarbonNovo 在蛋白质从头设计方面的性能（图 3），例如，可折叠性、多样性、新颖性是领域内常用的评价指标。此外，论文还采用了 Rosetta 能量和语言模型下的似然概率（Sequence plausibility）作为评价指标。

CarbonNovo 和当前主流的「两阶段」设计模型做了比较，例如 RFdiffusion, Chroma, Genie, FrameDiff 和 FrameFlow。在最关键的可折叠性指标上 CarbonNovo 显著超过了所有基线方法，在其他指标上也显著超过基线方法或者和基线方法相当。

为了展示 CarbonNovo 在联合设计序列与结构方面的优势，作者还对比了使用 ProteinMPNN 生成序列的结果（图 3 a-c）。可以观察到，联合设计模型可以设计出更加匹配的蛋白质主链结构和序列。

图 4：在不同蛋白质长度下的性能比较。（来源：论文）

作者进一步评估了 CarbonNovo 在不同长度的蛋白质设计上的性能（图 4）。在设计比较短的蛋白质时（例如长度 100），各个模型的表现相当。而随着蛋白质长度增长，CarbonNovo 的设计性能显著优于「两阶段」设计模型。

消融实验

图 5：消融实验结果。（来源：论文）

作者训练了多个消融模型，以评估关键组件对 CarbonNovo 性能的相对贡献（图 5）。语言模型、序列设计模块和辅助训练损失对 CarbonNovo 的性能都有贡献。其中，语言模型的引入表现出最显著的贡献。此外，使用基于能量的序列设计模块相比自回归模型，也能显著提升序列设计的性能。

Case study：蛋白质结构「插值」

Ein Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.

图 5：从 all beta-sheets 结构到 all alpha-helices 结构的渐变。（来源：论文）

在图像生成领域，人脸图片插值/渐变是生成模型比较经典的应用。作者也尝试利用 CarbonNovo 进行蛋白质结构的插值。

图 5 展示了一个代表例子，随着在隐空间逐渐增加 all alpha-helices 结构向量的权重，生成的 all beta-sheets 结构会逐渐过渡到 all alpha-helices 结构。

这是领域内第一个关于蛋白质结构的插值实验，也体现了 CarbonNovo 学习到的蛋白质隐空间比较紧致。

结语

最后作者指出，虽然 CarbonNovo 主要侧重于蛋白质单体设计，但它也可以很容易被扩展到蛋白质复合物设计和条件设计，如多肽设计、抗体设计等。

作者团队目前在跟生物实验团队合作，通过湿实验的方式验证 CarbonNovo 设计的蛋白质。

作者所在 CarbonMatrix 团队，长期致力于 AI 蛋白质设计和 AI 药物设计，正在建立生物大分子结构设计和预测的统一生成模型。

其研究成果多次发表在 ICML、NeurIPS 等顶级机器学习会议和 Nature Machine Intelligence、Nature Communications 等顶级学术期刊上，目前也在和生物实验室合作，积极推动 AI 模型在药物设计领域的产业化落地。

论文链接：https://openreview.net/pdf?id=FSxTEvuFa7

代码链接：https://github.com/zhanghaicang/carbonmatrix_public

Das obige ist der detaillierte Inhalt vonEin Team vom Institut für Computertechnologie der Chinesischen Akademie der Wissenschaften schlug CarbonNovo vor, ein KI-basiertes End-to-End-De-novo-Design von Proteinstrukturen und -sequenzen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!