編集者 | 大根の皮
**長い** 30 億年の自然進化の中で、**既存** タンパク質の**形**が形成され、長い自然選択プロセスを経ました。進化は、ランダムな突然変異と選択メカニズムを通じて、タンパク質の配列、構造、機能に従って選別する、地質学的時間スケールで行われる並行実験のようなものです。
、ここで、EevolutionaryScaleの研究者らは、進化によって生成されたマーカーで訓練された言語モデルが、既知のタンパク質配列**タンパク質とは異なる機能を生成するための進化シミュレーターとして機能できることを示しています。
、研究者らは、タンパク質の配列、構造、機能を推論できる **最先端** マルチモーダル生成言語モデルである **最先端** ESM3 を提案しています。 ESM3 は、そのモダリティを組み合わせて複雑な手がかりを追跡することができ、生物学的アライメントに対して非常に敏感です。
研究者は ESM3 を使用して **高性能** 蛍光タンパク質を生成します。最も **効率的な** 蛍光タンパク質の 1 つは、既知の蛍光タンパク質とは非常に異なる配列 (58% 相同性) を持っています。
この研究のプレプリント論文「言語モデルを使った5億年の進化のシミュレーション」は、近い将来、bioRxivプレプリントプラットフォームで公開される予定です。
自然進化は、30億年以上にわたって、自然界の現在のタンパク質の多様性をどのようにして作り上げたのでしょうか?
このプロセスには、**多く**のランダムな突然変異と自然選択イベントが含まれており、各リンクは、タンパク質の配列、構造、および生物学的機能の**厳密な**テストであり、最も**適合**な環境のみが行われます。変化したタンパク質を保持することができます。
したがって、既存のタンパク質配列情報には、本質的に、数十億年という長い進化の経路に対する生物学的変数の影響が含まれています。
EevolutionaryScaleチームは、ESM3と呼ばれるマルチモーダル生成言語モデルを使用して、この壮大な進化のプロセスをシミュレートできる革新的なアプローチを提案しました。
ESM3 は、タンパク質の配列を理解して生成するだけでなく、タンパク質の構造と機能を包括的に考慮することができ、強力な進化シミュレーション ツールとなります。このモデルは、タンパク質の挙動を理解して予測するために重要な、タンパク質の三次元構造情報を効率的に処理できる独自の幾何学的な注意メカニズムを使用して設計されています。
言語モデルは、離散単位またはトークンで動作します。タンパク質の 3 つの基本的な生物学的特性 (配列、構造、機能) について推論できるモデルを作成するには、研究者は三次元構造と機能を個別のアルファベットに変換し、それぞれの三次元構造を記述する方法を構築する必要がありました。文字列として。
これにより、ESM3 が大規模にトレーニングできるようになり、新たな生成機能が解放されます。 ESM3 の語彙は、順序、構造、機能を同じ言語モデルに統合します。
図: ESM3 は、配列、構造、機能のマルチモーダルな手がかりを通じて PETase 活性部位の足場を設計しました。 (出典: 論文)
ESM3 のトレーニング目標はシンプルです。各タンパク質について、その配列、構造、機能が抽出され、標識され、部分的にマスクされました。 ESM3 は、自然言語処理モデルからインスピレーションを得たマスキング言語モデリング目標を使用して、マスキング位置を予測する役割を果たします。
このタスクを達成するには、ESM3 は進化スケールのデータにおける配列、構造、機能の間のつながりを深く理解することを学習する必要があります。 ESM3 は、数十億のタンパク質と数十億のパラメーターに拡張する際に、進化をシミュレートすることを学習します。
ESM3 は、既存の既知のタンパク質配列とは異なる機能的なタンパク質を生成することができます。このモデルは、生物学的アライメントに対して非常に敏感でありながら、複雑な多峰性の合図を理解して応答する能力を特徴としています。
ESM3 は生物学的アライメントに非常に敏感であり、生物学的な進化と機能に関連するパターンを正確に特定し、追跡できることを意味します。この調整により、モデルはタンパク質がその生物学的役割と環境要求に基づいてどのように進化するかをよりよく理解できるようになり、それによって新しいタンパク質を設計する際に自然の生物学的論理と進化上の制約をより正確に反映できるようになります。
プロンプトに従って新しいタンパク質を生成できます。 ESM3 のマルチモーダル推論機能により、科学者は前例のない程度の制御で新しいタンパク質を生成できます。たとえば、モデルは構造、配列、機能を組み合わせて、プラスチック廃棄物の研究目的を分解するタンパク質エンジニアであるポリエチレン テレフタレート (PET) を分解する酵素である PETase の活性部位の潜在的な足場を提案するように促すことができます。
より困難な生成問題の解決
図: ESM3 モデルは、原子配位キューを満たすタンパク質を生成するタスクで評価されます。 (出典: 論文)
ESM3 の困難なタンパク質設計タスクを解決する能力は、タンパク質の規模が増加するにつれて明らかになります。そのようなタスクの 1 つは原子調整です。これは、配列では離れているが構造では近いアミノ酸原子の位置を指定する手がかりに基づいてタンパク質を設計することです。
これは、機能性タンパク質の設計に重要な構造生成において原子レベルの精度を達成するモデルの能力を測定します。これらのタスクを解決する ESM3 の能力は規模に応じて増加します。つまり、ESM3 は規模に応じてより困難な生成問題を解決します。
ESM3 は、LLM で適用されるヒューマン フィードバックによる強化学習 (RLHF) と同様の調整方法を使用することにより、フィードバックによってさらに改善されます。 ESM3 は、人間からフィードバックを受け取る代わりに、自身の世代の品質に関するフィードバックを提供して、それ自体を改善できます。ウェットラボ実験や既存の実験データからのフィードバックを使用して、ESM3 の生成を生物学と一致させることもできます。
5億年の自然進化距離にまたがる
研究者らはESM3を使用して、esmGFPと呼ばれる新しい蛍光タンパク質を設計しました。このタンパク質は、最も類似した既知の蛍光タンパク質とわずか58%の配列相同性しかありません。これは、以前の人工蛍光タンパク質では非常にまれでした。デザイン。
蛍光タンパク質の形成と染色体反応の触媒に必要な配列と構造的特徴に焦点を当てるように ESM3 を指示することで、一連の反復を経てモデルが設計され、最終的に明るい蛍光効果を持つ esmGFP が得られました。
このタンパク質は、既知のタンパク質とは配列的に大きく異なるだけでなく、実験では一般的な蛍光タンパク質と同様の蛍光強度を示します。これは、5 億年以上にわたる自然進化の距離に相当します。
EevolutionaryScaleは非営利会社です。彼らの使命は、科学コミュニティとの協力とオープンで安全かつ責任ある研究を通じて、人間の健康と社会に利益をもたらす生物学を理解するための人工知能を開発することです。 ESM プロジェクトは開始以来、コードとモデルのリリースを通じてオープン サイエンスに取り組んできており、チームは今後もそれを続けることに取り組んでいます。
同社は2023年7月に設立され、1億4,200万米ドルのシードラウンドを完了し、AmazonおよびNVIDIAとの協力に達しました。
以上が5億年にわたる進化の情報をシミュレートし、タンパク質の配列、構造、機能を同時に推測する初めての大規模な生物学的モデルです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。