OpenAI の GPT や Meta AI の Llama などの大規模言語モデル (LLM) は、ケモインフォマティクスの分野、特に単純化された分子入力ライン入力システム (SMILES) の側面を理解する際にその可能性がますます認識されています。これらの LLM は、SMILES 文字列をベクトル表現にデコードすることもできます。
カナダのウィンザー大学の研究者らは、分子特性予測と薬物相互作用予測という 2 つの重要なアプリケーションに焦点を当て、下流タスクに SMILES 文字列を埋め込むために、GPT および Llama で事前トレーニングされたモデルのパフォーマンスを SMILES と比較しました。
この研究は「大規模言語モデルは分子を理解できるか?」というタイトルで、2024 年 6 月 25 日に「BMC Bioinformatics」に掲載されました。
1. 創薬における分子埋め込みの応用分子埋め込みは創薬における重要なタスクであり、分子特性予測、薬物標的相互作用 (DTI) 予測、薬物間相互作用関数 (DDI) で広く使用されています。 ) 予測およびその他の関連タスク。
2. 分子埋め込み技術
分子埋め込み技術は、一般的な SMILES 表現など、分子の構造接続情報や構造の線注釈をコード化した分子グラフから特徴を学習できます。
3. SMILES 文字列への分子埋め込み
SMILES 文字列による分子埋め込みは、静的な単語埋め込みからコンテキスト化された事前トレーニング済みモデルまで、言語モデリングの進歩と並行して進化してきました。これらの埋め込み技術は、関連する構造および化学情報をコンパクトな数値表現で取得することを目的としています。
イラスト: 医薬品化学の表現。 (出典: 論文)基本的な仮定は、類似した構造を持つ分子は同様に動作するということです。これにより、機械学習アルゴリズムが特性予測や創薬タスクのために分子構造を処理および分析できるようになります。
LLM の画期的な進歩により、顕著な疑問は、LLM が分子を理解し、分子データに基づいて推論できるかどうかということです。
より具体的には、LLM は高品質の意味表現を生成できますか?
ウィンザー大学の Shaghayegh Sadeghi 氏、Alioune Ngom Jianguo Lu 氏らは、SMILES を効果的に埋め込むこれらのモデルの能力をさらに調査しました。現在、この機能は、おそらく API 呼び出しのコストのせいで、十分に研究されていません。
研究者らは、分子特性と DDI 予測タスクの両方において、Llama を使用して生成された SMILES 埋め込みが、GPT を使用して生成された SMILES 埋め込みよりも優れたパフォーマンスを発揮することを発見しました。
図: 分類タスクと回帰タスクの結果。 (出典: 論文)以上がLlama 分子の埋め込みは GPT よりも優れていますが、LLM は分子を理解できますか?このラウンドで Meta は OpenAI に勝利しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。