ホームページ テクノロジー周辺機器 AI NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

Jan 14, 2024 pm 08:00 PM
理論 テキストモデル

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

著者 | Liu Shengchao

編集者 | Kaixia

2021 年から、ビッグ言語とマルチモダリティの組み合わせが機械学習研究を席巻コミュニティ 。

大規模なモデルとマルチモーダルなアプリケーションの開発により、これらの技術を創薬に応用できるでしょうか?そして、これらの自然言語によるテキスト記述は、この困難な問題に新たな視点をもたらすことができるでしょうか?答えは「はい」であり、私たちはそれについて楽観的です

最近、カナダのモントリオール学習アルゴリズム研究所 (Mila)、NVIDIA Research、イリノイ大学アーバナシャンペーン校 (UIUC)、プリンストン大学、カリフォルニア工科大学同大学の研究チームは、比較学習戦略を通じて分子の化学構造とテキスト記述を共同で学習し、マルチモーダルな分子構造テキストモデル MoleculeSTM を提案しています。

この研究は「マルチモーダル分子構造 – テキストベースの検索および編集のためのテキストモデル」というタイトルで、2023 年 12 月 18 日に「Nature Machine Intelligence」に掲載されました。

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

論文リンク: https://www.nature.com/articles/s42256-023-00759-6 を書き直す必要があります

その中で、 Liu Shengchao 博士が筆頭著者で、NVIDIA Research の Anima Anandkumar 教授が責任著者です。 Nie Weili、Wang Chengpeng、Lu Jiarui、Qiao Zhuoran、Liu Ling、Tang Jian、Xiao Chaowei が共著者です。

このプロジェクトは、2022 年 3 月に NVIDIA Research に入社した Liu Shengchao 博士が、Nie Weili 教師、Tang Jian 教師、Xiao Chaowei 教師、Anima Anandkumar 教師の指導の下で実施しました。

Liu Shengchao 博士は次のように述べています。「私たちの動機は、LLM と創薬の予備調査を実施し、最終的に MoleculeSTM を提案することでした。」テキストは分子編集をガイドするように設計されています。

MoleculeSTM の核となる考え方は非常にシンプルかつ直接的です。つまり、分子の記述は内部化学構造と外部機能記述の 2 つのカテゴリに分類できます。ここでは、対照的な事前トレーニング方法を使用して、これら 2 種類の情報を調整して接続します。具体的な図を以下の図に示しますNVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

#図: MoleculeSTM フローチャート。

MoleculeSTM のこのアライメントには非常に優れた特性があります。化学空間で解決するのが難しいタスクがある場合、それらを自然言語空間に転送できます。そして、自然言語タスクは、その特性により比較的簡単に解決できるでしょう。これに基づいて、下流のさまざまなタスクを設計し、その有効性を検証しました。以下では、いくつかの洞察について詳しく説明します。 NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

自然言語モデルと大規模言語モデルの特徴

MoleculeSTM では、初めて問題を提起します。自然言語のオープンボキャブラリーと組み合わせ特性を活用します

オープンボキャブラリーとは、現在の人間の知識をすべて自然言語で表現できることを意味し、将来出現する新しい知識も表現できます。現代語で. 要約したり要約したりするためにいくつかの言語が使用されます。たとえば、新しいタンパク質が出現した場合、その機能を自然言語で説明できるようにしたいと考えています。

複合性とは、自然言語において、複雑な概念が複数の単純な概念によって共同して表現できることを意味します。これは、複数属性の編集などのタスクに非常に役立ちます。化学空間で同時に複数の特性を満たすように分子を編集するのは非常に困難ですが、複数の特性を自然言語で非常に簡単に表現できます。

  • 私たちの最近の研究 ChatDrug (https://arxiv.org/abs/2305.18090) では、自然言語モデルと大規模言語モデルの間の会話特性を調査しました。これは、Friends can go and見てみる
  • 機能由来のタスク設計とは、製品やシステムの特性に基づいてタスクを計画し配置する設計のことを指します

既存言語の場合 - イメージの場合タスクは、画像やテキストの生成など、アート関連のタスクとして見ることができます。つまり、結果はさまざまであり、不確実です。ただし、科学的発見とは、特定の機能を持つ小分子の生成など、比較的明確な結果が得られる科学的な問題を指します。これはタスク設計に大きな課題をもたらします

MoleculeSTM (付録 B) では、2 つのガイドラインを提案しました:

  • 私たちが考慮する最初のタスクは、計算とシミュレーションを実行して結果を取得できるようにすることです。将来的には、ウェットラボ検証結果が考慮される予定ですが、これは現在の作業の範囲内ではありません。
  • 第二に、あいまいな結果を持つ問題のみを考慮します。具体的な例としては、特定の分子を水溶性または浸透性にすることが挙げられます。分子内の特定の位置に特定の官能基を追加するなど、明確な結果が得られる問題もありますが、そのようなタスクは医薬品や化学の専門家にとってよりシンプルでわかりやすいと考えられます。したがって、将来的に概念実証タスクとして使用することはできますが、主要なタスクの対象にはなりません。

これに基づいて、3 つの大きなカテゴリのタスクを設計しました:

  1. ゼロショット構造化テキスト検索、
  2. ゼロショット テキストベースの分子編集、および

分子物性予測。

次のセクションでは 2 番目のタスクに焦点を当てます

分子編集の定性的結果は次のように言い換えられます:

これはこのタスクは、分子と自然言語記述 (追加の属性など) を同時に入力し、複合言語テキストで記述された新しい分子を出力することを期待することです。これはテキストガイドによるリードの最適化です。

NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース具体的な方法は、すでにトレーニング済みの分子生成モデルと事前トレーニング済みの MoleculeSTM を使用して 2 つの潜在空間 (潜在空間) の位置合わせを学習し、それによって潜在空間補間を実行し、デコードしてターゲットを生成することです。分子。プロセス図は次のとおりです。

書き直す必要がある内容は次のとおりです: ゼロサンプルのテキストガイドによる分子編集の 2 段階のプロセス図
  • ここではいくつかのグループを示します。定性的な結果は次のように言い換えられます: (残りの下流​​タスクの結果の詳細は元の論文に記載されています)。主に 4 種類の分子編集タスクを検討します。
  • 単一属性編集: 水溶性、浸透性、水素結合ドナーとアクセプターの数などの単一属性を編集します。
  • 複合属性編集: 水溶性や水素結合供与体の数など、複数の属性を同時に編集します。
  • 薬物類似性エディター: (付録 D.5) は、入力分子と標的分子薬物をより近くに表示します。
  • 特許取得済み医薬品の近隣探索: 特許取得済み医薬品の場合、製造中の医薬品も一緒に報告されることがよくあります。ここでは、中間薬物を自然言語記述と組み合わせて、最終的な標的薬物を生成できるかどうかを確認しています。

結合親和性エディター: 入力分子と標的の間の結合親和性を高めることを目的として、いくつかの ChEMBL アッセイを標的として選択しました。 NVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリース

#結果表示: ゼロサンプルのテキストガイドによる分子編集。 (注: これは原文を中国語に直訳したものです。)######さらに興味深いのは最後のタイプのタスクで、MoleculeSTM が実際にターゲットタンパク質のテキスト記述に基づいてマッチングを実行できることがわかりました。 . リガンドのリード化合物の最適化。 (注: ここでのタンパク質の構造情報は評価後にのみ判明します。) ###

以上がNVIDIA、Mila、Caltech が共同で創薬と組み合わせた LLM のマルチモーダル分子構造テキスト モデルをリリースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品​​質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? 自然の視点: 医療における人工知能のテストは混乱に陥っています。何をすべきでしょうか? Aug 22, 2024 pm 04:37 PM

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 最適な分子を自動的に特定し、合成コストを削減する MIT は、分子設計の意思決定アルゴリズム フレームワークを開発します。 Jun 22, 2024 am 06:43 AM

編集者 | 創薬の合理化における Ziluo AI の利用は爆発的に増加しています。新薬の開発に必要な特性を備えている可能性のある候補分子を数十億個スクリーニングします。材料の価格からエラーのリスクまで、考慮すべき変数が非常に多いため、たとえ科学者が AI を使用したとしても、最適な候補分子の合成コストを秤量することは簡単な作業ではありません。ここで、MIT の研究者は、最適な分子候補を自動的に特定する定量的意思決定アルゴリズム フレームワークである SPARROW を開発しました。これにより、合成コストを最小限に抑えながら、候補が望ましい特性を持つ可能性を最大限に高めることができます。このアルゴリズムは、これらの分子を合成するために必要な材料と実験手順も決定しました。 SPARROW では、複数の候補分子が入手可能な場合が多いため、分子のバッチを一度に合成するコストが考慮されます。

See all articles