過去 2 年間にわたり、機械学習はタンパク質の構造予測に革命をもたらしました。現在、人工知能はタンパク質設計の分野で新たな革命を引き起こしています。
AI の出現以来、多くの科学者がタンパク質研究を行うために AI を使用する取り組みに参加してきました。生物学者は、機械学習を使用すると、タンパク質分子を数秒で作成できることを発見しました。以前であれば、この期間は数か月かかっていたかもしれません。
最近、新興企業 Evozyne は、NVIDIA が提供する事前トレーニング済み AI モデルを使用して、医療およびクリーン エネルギー分野で大きな可能性を持つ 2 つのタンパク質を作成しました。タンパク質の 1 つは先天性疾患の治療に使用され、もう 1 つは二酸化炭素を消費して地球温暖化を抑制するために使用されます。
そこで科学者たちは、NVIDIA BioNeMo を使用して高品質のタンパク質を生成する大規模な言語モデルを作成し、医薬品開発を加速し、より持続可能な環境の構築に役立てています。
創薬を加速する新しい方法
Evozyne の共同創設者で論文の共著者である Andrew Ferguson 氏は次のように述べています。 「は、最初の生産ラウンドを生成しました。結果として得られる合成タンパク質は、天然に存在するタンパク質とまったく同じであり、モデルが自然の設計ルールを学習したことを示しています。」
Evozyne は、NVIDIA の ProtT5 を使用しています。 ProtT5 は、医療 AI モデルを作成するためのソフトウェア フレームワークおよびサービスである NVIDIA BioNeMo の一部である Transformer モデルです。
化学や機械学習などの研究分野をもつ分子工学者のファーガソン氏は、次のように述べています。「BioNeMo は非常に強力で、モデルをトレーニングし、そのモデルを使用して非常に低コストで作業タスクを実行できます。 「数秒の問題です。何百万もの配列を数分で生成できます。このモデルは、Evozyne のニーズを満たす新しいタンパク質を組み立てる方法を予測します。」
このモデルは、Evovyne ProT-VAE パイプラインの中心です。 Evozyne の ProT-VAE パイプラインは、NVIDIA BioNeMo の強力な Transformer モデルと変分オートエンコーダー (VAE) を組み合わせています。
彼はこう言いました:「数年前までは、大規模な言語モデルと変分オートエンコーダーを組み合わせてタンパク質を設計できることに誰も気づいていませんでした。」
対照的に、Evozyne の手法は半分以上を変えることができます。わずか 1 ラウンドでタンパク質内のアミノ酸の量を測定します。これは何百もの突然変異に相当します。
Evozyne データ サイエンティストの Joshua Moller 氏は次のように述べています。「作業を複数の GPU に拡張することで、トレーニングが高速化されます。
これにより、大規模な AI モデルのトレーニングにかかる時間が数か月から 1 週間に短縮されます。」ファーガソン氏は、「何十億もの訓練可能なパラメータを持つモデルなど、他の方法では訓練することが不可能なモデルを訓練することができます。」 ''
革新的な AI モデル
従来のタンパク質工学設計手法である指向性進化では、通常、一度に 1 つのタンパク質だけを使用する、ゆっくりとした計画外のアプローチが使用されます。機械学習は、考えられる多数のアミノ酸の組み合わせを研究し、最も有用な配列を効果的に特定するのに役立ちます。
BioNeMo は、NVIDIA NeMo Megatron クラウド サービスに基づいて構築された AI 対応の医薬品開発であり、スーパーコンピューティング規模で大規模な生体分子 Transformer AI モデルをトレーニングおよびデプロイするためのフレームワーク。サービスには、事前トレーニング済み LLM、タンパク質、DNA、RNA、化学の一般的なファイル形式のネイティブ サポートが含まれます。また、SMILES (分子用データ ローダーで使用されるデータ ローダー) のサポートも提供します。
BioNeMo を使用すると、科学者は事前トレーニングされたモデル、自動ダウンローダー、およびプリプロセッサの使用を簡単に開始できます。教師なし構造化学習器を使用すると、さまざまなモデル、埋め込み、および出力が可能になります。教師なし事前トレーニングにより、ラベル付きデータの必要性がなくなり、迅速な生成が可能になります学習された埋め込みにより、タンパク質の構造、機能、細胞の位置、水溶性、膜結合、保存領域および可変領域などが予測されます。その中でも、MegaMolBARTは14億個の分子(SMILES文字列)を使用する手法であり、さまざまな化学情報学アプリケーションに利用可能であり、また、BioNeMoはProtT5やESM1-85MなどのTransformerベースのタンパク質言語モデルを提供しています。
BioNeMo は、新しいタンパク質配列の 3D 構造を予測するためのユーザーフレンドリーな深層学習モデルである OpenFold も提供します。NVIDIA の Transformer モデルは、何百万ものタンパク質のアミノ酸配列を読み取ります。テキストを理解し、自然がタンパク質のアミノ酸配列を構築する方法を学習するためにニューラル ネットワークで使用されるテクノロジー。将来に目を向けると、AI を使用してタンパク質工学を加速する可能性は非常に広範です。人工的に設計されたタンパク質は、さらに多くのことを可能にします。自然界にもともと存在するタンパク質よりも安定で、エネルギーが無くても生存できる、あるいは高温などの極限条件下でも機能の一つが発揮されます。さらに、人工知能を使用して骨格に一致するアミノ酸配列を設計することもでき、これを使用して酵素や抗体などの特定のタンパク質の安定性を向上させることができます。人工知能技術は、さまざまなサイズや立体構造のタンパク質の設計において非常に重要な役割を果たしており、将来的には、汚染の削減や環境改善に使用できる新しい生物材料など、より多くの有用なタンパク質の設計にも役立つ可能性があります。 。
以上が無限の可能性 NVIDIA 生成 AI モデルがタンパク質合成を高速化の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。