Meta を使用すると、150 億パラメータの言語モデルに「新しい」タンパク質をゼロから設計する方法を学習させることができます。ルカン: 素晴らしい結果-AI-php.cn

AI は生物医学の分野で再び新たな進歩を遂げました。はい、今回はプロテインについてです。

違いは、これまでは AI がタンパク質の構造を発見していましたが、今回は AI が自らタンパク質の構造を設計して生成するようになった点です。昔は「検察官」だったとしたら、今は「クリエイター」に進化していると言っても不可能ではありません。

# この研究の参加者は、Meta の AI 研究機関の一部である FAIR のタンパク質研究チームです。 Facebook で長年働いてきたチーフ AI サイエンティストである Yann LeCun 氏も、チームの結果をすぐに転送し、それを高く評価しました。

Meta を使用すると、150 億パラメータの言語モデルに「新しい」タンパク質をゼロから設計する方法を学習させることができます。ルカン: 素晴らしい結果

BioRxiv に関するこれら 2 つの論文は、タンパク質の設計/生成における Meta の「驚くべき」成果です。このシステムは、シミュレーテッドアニーリングアルゴリズムを使用して、目的の形状に一致するか、対称性などの制約を満たす方法で折りたたまれるアミノ酸配列を見つけます。

ESM2、原子の階層構造を予測するモデル

ご想像のとおり、この研究は 2 つの論文と同じです基礎となっているのは、少し前に Meta によって提案されたタンパク質の予測と発見のための大規模言語モデル、ESM2 です。

これは 150 億個のパラメータを持つ大規模なモデルです。モデルは 800 万から 1,500 万のパラメータまで拡張できるため、内部表現から得られる情報により原子分解能での 3 次元構造の予測が可能になります。

大規模な言語モデルを利用して進化パターンを学習し、タンパク質配列から直接エンドツーエンドで正確な構造を生成できます。予測は精度を維持しながら、現在の最先端の方法よりも最大 60 倍高速です。

#実際、この新しい構造予測機能のおかげで、Meta はわずか 2 週間で約 2,000 個の GPU のクラスターを使用することができました。マップ内の 6 億を超えるメタゲノムタンパク質が予測されました。

2 つの論文の責任著者である Meta AI の Alex Rives 氏は、ESM2 言語モデルによって実証された多用途性は自然言語モデルの範囲を超えているだけではないと述べました。タンパク質だけでなく、複雑なモジュール式タンパク質構造のプログラム可能な生成も可能にします。

タンパク質設計「特殊なプログラミング言語」

労働者が自分の仕事をうまくやり遂げたい場合は、まず自分のツールを研ぎ澄ます必要があります。

タンパク質の設計と生成をより効率的にするために、研究者はタンパク質指向の Designed 高水準プログラミング言語も開発しました。

#論文アドレス: https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1

研究の主要リーダーの一人であり、論文「生成タンパク質設計のための高水準プログラミング言語」の責任著者でもある Alex Rives 氏は、この結果によりシステムが複雑になり、モジュール式で、大きなタンパク質や複合体の構造生成のプログラミングが可能になります。

この論文の著者の一人でスタンフォード大学の研究者であるブライアン・ヒエ氏も、この論文の主な研究アイデアと結果をTwitterで説明しました。

全体として、この記事では、タンパク質設計用の高水準プログラミング言語によって制御される複雑なタンパク質のモジュール設計を生成機械学習がどのように可能にするかについて説明します。

彼は、この記事の主なアイデアはシーケンスや構造の構成要素を使用することではなく、より高い抽象レベルでモジュール性を配置することであると述べました。ブラックボックス最適化により特定の設計を生成します。原子レベルの構造は、最適化の各ステップで予測されます。

以前のタンパク質設計方法と比較して、この新しいアイデアは、設計者が任意の微分不可能なタンパク質を指定できる方法を生成します。原子レベルの座標の指定から、対称設計などのタンパク質の抽象的な設計ソリューションに至るまで、さまざまな制約が含まれます。

#プログラマビリティにとって、制約がモジュール化されていることが重要です。たとえば、次の図は、同じ制約が 2 つのレベルの対称プログラミングに階層的に適用される状況を示しています。

#これらの制約は簡単に再結合することもできます。たとえば、原子座標の制約を対称性の制約と組み合わせることができます。あるいは、異なる形式の 2 レベル対称を組み合わせて、非対称複合構造をプログラムすることもできます。

Brian Hie は、この結果がより制御可能で規則的で表現力豊かなタンパク質設計の一歩前進につながると信じています。同氏はまた、Meta AIと他の協力者の共同の取り組みに感謝した。

タンパク質設計を「建物を建てるように」行う

論文の中で研究者らは、タンパク質設計には以下の基本セットから恩恵を受けると主張しています。規則性、単純さ、およびプログラム可能性は、建物、機械、回路、コンピューターソフトウェアのエンジニアリングで使用されるような抽象的な概念によって提供されます。

#しかし、これらの人工の創造物とは異なり、タンパク質は、配列の局所構造がその全体的な環境と絡み合っているため、簡単に再結合できる部分に分解することができません。古典的な非経験的タンパク質設計では、一連の基本的な構造ビルディングブロックを特定し、それらを組み立てて高次構造を構築しようとします。

#同様に、従来のタンパク質工学では、ネイティブなタンパク質配列のフラグメントまたはドメインをハイブリッドキメラに組み換えることがよくあります。ただし、既存のアプローチでは、真のプログラマビリティに必要な高度な組み合わせの複雑さをまだ達成できません。

この論文では、最新の生成モデルが、新しいレベルの組み合わせの複雑さでモジュール性とプログラマビリティという古典的な目標を達成できることを実証します。モジュール性とプログラマビリティをより高い抽象レベルに置き、生成モデルは人間の直感と特定のシーケンスと構造の生成との間のギャップを埋めます。

この場合、タンパク質設計者は高レベルの命令を再構築するだけでよく、これらの命令を満たすタンパク質を取得するタスクは、生成モデルが優れています。

研究者らは、設計者が直観的、モジュール式、階層的な手順を指定できるようにする生成タンパク質設計用のプログラミング言語を提案しています。高レベルのプログラムは、生成モデルを通じて低レベルのシーケンスおよび構造に変換できます。このアプローチは、タンパク質の構造情報と設計原理を学習できるタンパク質言語モデルの進歩を活用しています。

#この研究での具体的な実装は、上の図に示すように、エネルギーベースの生成モデルに基づいています。

まず、タンパク質設計者は、階層的に構成された一連の制約から構成される高レベルのプログラムを指定します (図 A)。

プログラムはその後、制約との互換性を評価するエネルギー関数にコンパイルされます。制約は任意で区別できない場合があります (図 B )。

#原子レベルの構造予測 (言語モデルによって可能) をエネルギー関数に組み込むことで、構造制約を適用します。このアプローチでは、広範囲にわたる複雑な設計を生成できます (図 C)。

ゼロからタンパク質配列を生成する

論文「言語モデルは天然タンパク質を超えて一般化する」の中で、MetaAI チームの著者である Tom Sercu 氏は次のように述べています。この作業は主に 2 つのタスクを達成しました。

#論文アドレス: https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1

最初の項目は、指定された主鎖構造のシーケンスを設計することです。言語モデルを使用すると、すべての目標に対して成功した設計は 19/20 の成功率で得られますが、言語モデルを使用しないシーケンス設計の成功率はわずか 1/20 です。

#2 番目のタスクは、制約のない生成です。研究チームは、言語モデルによって定義されたエネルギーランドスケープから（シーケンス、構造）ペアをサンプリングするための新しい方法を提案しています。

さまざまなトポロジでサンプリングすると、実験の成功率が再び向上します (最大 71/129、つまり 55%)。

予測されたタンパク質構造が天然タンパク質の限界を超えていることを証明するために、研究チームは、既知の天然タンパク質をすべて網羅する配列データベースで生成された言語モデルを比較しました。タンパク質配列検索。

#結果は、この 2 つの間に一致する関係はなく、自然なシーケンスと言語によって生成された予測構造を示しています。モデルが異なります。

# Sercu 氏は、ESM2 タンパク質言語モデルのみを使用してタンパク質の構造を設計できると述べました。研究チームは 228 種類のタンパク質を実験的にテストし、成功率は 67% でした。

# Sercu は、配列のみでトレーニングされたタンパク質言語モデルは、配列と構造を結び付ける深いパターンを学習でき、使用できると信じています。自然に探索される設計空間を超えて、タンパク質を新たに設計すること。 Meta を使用すると、150 億パラメータの言語モデルに「新しい」タンパク質をゼロから設計する方法を学習させることができます。ルカン: 素晴らしい結果

タンパク質生成の深い文法の探索

論文の中で、メタの研究者らは、言語モデルはシーケンスのみでトレーニングされるが、このモデルは依然としてタンパク質の深い文法構造を設計し、天然タンパク質の限界を突破することができます。

図 A の四角形がすべてのタンパク質配列で構成される空間を表す場合、天然のタンパク質配列は灰色の部分であり、その一部を覆っています。自然なシーケンスを超えて一般化するには、言語モデルは基礎となる設計パターンにアクセスする必要があります。

研究チームがしなければならないことは 2 つあります: 1 つ目は、タンパク質 (de novo) 主鎖をゼロから設計すること、2 つ目は、主鎖に基づいて行うことです。、最初からタンパク質配列を生成します。

研究チームは、マスクされた言語モデルを使用して ESM2 をトレーニングしました。トレーニング内容には、進化の過程で数百万もの異なる天然タンパク質が含まれていました。

#言語モデルがトレーニングされた後、内部注意状態でタンパク質の三次構造に関する情報を特定できます。モデルの。その後、研究者らは、線形投影を通じて、タンパク質配列内の 1 対の位置の注目を残基間の距離の分布に変換しました。

タンパク質構造を予測する言語モデルの能力は、天然のタンパク質配列の根底にあるより深い構造を示している、と研究者らは述べた。シーケンス、およびモデルによって学習できる深い文法がある可能性があります。

#結果は、進化の過程において、多数のタンパク質配列に生物学的構造と機能が含まれていることを示し、タンパク質の設計構造を明らかにします。この構造は、タンパク質配列の機械モデルを学習することによって完全に再現可能です。

#6 回の実験で言語モデルによるタンパク質構造の予測に成功

タンパク質全体にわたる深い文法の存在は、ネイティブタンパク質の理解はトレーニングデータに依存すること、および言語モデルは既知のネイティブタンパク質ファミリーの外で動作する可能性があるという、一見矛盾する 2 つの一連の発見を説明します。

#タンパク質言語モデルのスケーリング則が引き続き有効であれば、AI 言語モデルの生成能力は向上し続けることが期待できます。

研究チームは、タンパク質構造の基本的な文法が存在するため、機械モデルはより珍しいタンパク質構造を学習し、それによってモデルの予測を拡張すると述べています。能力と探索スペース。

# 1 年前、DeepMind のオープンソース AlphaFold2 が Nature and Science に掲載され、生物学と AI の学界を圧倒しました。

# 1 年後、人工知能予測モデルが出現し、タンパク質構造の分野のギャップを頻繁に埋めてきました。

人間が人工知能に命を与えたとしたら、人工知能は人間が生命の謎を解くためのパズルの最後のピースなのでしょうか?

以上がMeta を使用すると、150 億パラメータの言語モデルに「新しい」タンパク質をゼロから設計する方法を学習させることができます。ルカン: 素晴らしい結果の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。