AI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載
著者 | コーネル大学 Du Yuanqi
編集者 | ScienceAI
科学のための AI がますます注目を集めるにつれ、人々は AI がどのようにして科学的問題を解決し、他の分野で参考としてうまく利用できるかについてより懸念を抱いています。国も同様の分野。
AI と低分子創薬は、最も代表的で初期に研究が進められている分野の 1 つです。分子の発見は、(分子構造の離散的な性質のため) 非常に困難な組み合わせ最適化問題であり、探索空間は非常に大きく、険しいものであると同時に、通常、探索された分子の特性を検証することは非常に困難です。高価な実験、少なくともシミュレーション計算、フィードバックを提供するための量子化学手法が必要です。
機械学習の急速な発展と初期の探求(シンプルで使用可能な最適化目標と効果測定方法の構築を含む)のおかげで、組み合わせ最適化、検索、サンプリングアルゴリズム(遺伝的アルゴリズム)を含む多数のアルゴリズムが開発されました。 、モンテカルロ木探索、強化学習、生成フローモデル/GFlowNet、マルコフ連鎖モンテカルロなど)、および連続最適化アルゴリズム、ベイズ最適化、勾配ベースの最適化など。同時に、既存の比較的完全なアルゴリズム測定ベンチマークと比較的客観的で公正な比較方法により、機械学習アルゴリズムの開発に広い余地が開かれました。
最近、コーネル大学、ケンブリッジ大学、およびローザンヌ工科大学エコール工科大学 (EPFL) の研究者らが、「Nature Machine Intelligence」に「機械学習支援生成分子設計」というタイトルのレビュー記事を発表しました。
論文リンク: https://www.nature.com/articles/s42256-024-00843-5
このレビューでは、生成分子設計における機械学習の応用をレビューします。創薬と開発では、特定の物理化学的特性と生物学的活性を満たすように分子を最適化する必要があります。ただし、従来の方法は高価であり、膨大な検索スペースと不連続な最適化機能により失敗する傾向があります。機械学習は、分子生成とスクリーニングのステップを組み合わせることで、初期段階の創薬プロセスを加速します。
イラスト: 生成 ML 支援分子設計プロセス。
生成分子設計タスク
生成分子設計は、分散学習と目標指向生成という 2 つの主要なパラダイムに分けることができ、目標指向生成はさらに条件付き生成と分子最適化に分けることができます。各方法の適合性は、特定のタスクと関係するデータによって異なります。
分布学習(分布学習)
- 分布学習は、与えられたデータセット内の分子の確率分布をモデル化することでデータの分布を記述し、それによって学習された分布から新しい分子をサンプリングすることを目的としています。
条件付き生成 (プロパティ条件付き生成)
- プロパティ条件付き生成: 特定の属性 (テキストの説明または特定の属性の値) を含む構造を生成します。
- 分子 (サブ) 構造条件付き生成 (分子 (サブ) 構造条件付き生成): 部分構造の設計、足場ホッピング、リンカー設計、全体構造の再設計 (パイロット最適化) など、特定の構造制約を持つ分子を生成します。または分子の条件付き生成全体 (立体構造生成)。
- ターゲット条件付き生成 (ターゲット条件付き生成): 特定の疾患関連生体分子ターゲットに対して高い結合親和性を持つ分子を生成することを目的としています。属性条件の生成とは異なり、ターゲット条件の生成では、ターゲット構造への明示的なアクセスを利用して、直接のターゲット-リガンド相互作用を統合することにより、ターゲットに対するリガンド分子の親和性を向上させます。
- 表現型条件付き生成 (表現型条件付き生成): 細胞ベースの顕微鏡検査または他のバイオアッセイの読み取り値 (トランスクリプトーム データなど) から表現型のフィンガープリントを学習して、生成を目的の生物学に導く条件付けされたシグナルを提供することが含まれます。結果の分子。
分子最適化は、医薬品候補の特性を改良して安全性、有効性、薬物動態特性を向上させることで、創薬において重要な役割を果たします。候補分子構造に小さな変更を加えて、溶解度、バイオアベイラビリティ、標的親和性などの薬物特性を最適化し、それによって治療の可能性を向上させ、臨床エンドポイントの成功率を高めます。
-
イラスト: 生成タスク、生成戦略、分子の特性評価のイラスト。
分子生成プロセス
分子生成は多くの異なるユニットの組み合わせからなる複雑なプロセスです。以下の図に代表的な作業をリストし、各部分の代表的なユニットを紹介します。
分子表現
分子的に生成されたニューラル アーキテクチャを開発する場合、最初に分子構造の機械可読な入出力表現を決定する必要があります。入力表現はモデルに適切な誘導バイアスを注入するのに役立ち、出力表現は分子の最適化された探索空間を決定します。表現タイプによって、生成方法の適用可能性が決まります。たとえば、離散検索アルゴリズムは、グラフや文字列などの組み合わせ表現にのみ適用できます。
さまざまな入力表現が研究されていますが、表現タイプとそれをエンコードするニューラル アーキテクチャとの間のトレードオフはまだ明確ではありません。分子間の表現変換は必ずしも全単射的であるとは限りません。たとえば、密度マップやフィンガープリントでは分子を一意に識別できないため、この自明ではないマッピング問題を解決するにはさらなる技術が必要です。一般的な分子表現には、文字列、2 次元トポロジカル グラフ、3 次元幾何学グラフなどがあります。
- 文字列ベースの分子構造: 通常は、Simplified Molecular Input Line Entry System (SMILES) や Self-Referential Embedded Strings (SELFIES) などの文字列としてエンコードされます。 SMILES は構文ルールを使用して分子を表しますが、文字列が無効である可能性があります。SELFIES はこれらのルールを変更することで分子の有効性を判断します。分子列は通常、リカレント ネットワークと Transformer モデルを介して配列データにエンコードされます。
- トポロジカルグラフと幾何学グラフに基づく原子と結合: 通常、トポロジカルグラフではノードとエッジとして表されます。グラフ ニューラル ネットワーク (GNN) は、グラフ構造の分子データをモデル化するためによく使用され、隣接するノードに基づいてノードとエッジの特徴を更新します。幾何学的 GNN は、3D 情報が利用可能で関連性がある場合に、並進および回転の不変性または等変性など、3D 空間でのアプリケーション関連の対称性をキャプチャするためによく使用されます。
表現の粒度は、生成モデル設計におけるもう 1 つの考慮事項です。通常、この方法では生成中に原子または分子の断片を基本的な構成要素として利用します。フラグメントベースの表現は、分子構造を原子グループを含むより大きな単位に洗練し、官能基の同定などの階層情報を保持するため、従来のフラグメントベースまたはファーマコフォアの薬剤設計アプローチと一致します。
生成メソッド
深層生成モデルは、学習分布 (分布学習とも呼ばれます) からデータとサンプルの確率分布を推定するメソッドのクラスです。これらには、変分オートエンコーダー、敵対的生成ネットワーク、正規化フロー、自己回帰モデル、拡散モデルが含まれます。これらの生成方法にはそれぞれユースケース、長所と短所があり、選択は必要なタスクとデータの特性によって異なります。
生成戦略
生成戦略とは、モデルが分子構造を出力する方法を指し、一般に 1 回限りの生成、逐次生成、または反復的改善に分類できます。
ワンショット生成: ワンショット生成では、モデルの 1 回の順方向パスで完全な分子構造が生成されます。このアプローチでは、現実的で合理的な分子構造を高精度で生成するのが難しいことがよくあります。さらに、ワンショット生成では、生成される構造の精度と妥当性を確保するために重要な原子価制約などの明示的な制約を満たすことができないことがよくあります。
逐次生成: 逐次生成では、通常は原子またはフラグメントによる一連のステップを通じて分子構造を構築します。原子価制約を連続生成に簡単に注入できるため、生成される分子の品質が向上します。ただし、逐次生成の主な制限は、生成される軌跡の順序をトレーニング中に定義する必要があり、推論に時間がかかることです。
反復的改善: 反復的改善では、一連の更新を予測することで予測を調整し、ワンショット生成方法の困難を回避します。たとえば、AlphaFold2 の環状構造モジュールは、関連する分子生成戦略にインスピレーションを与えたアプローチであるバックボーン フレームワークの洗練に成功しました。拡散モデリングは、一連のノイズ低減ステップを通じて新しいデータを生成する一般的な手法です。現在、拡散モデルは、立体構造生成、構造ベースの薬物設計、リンカー設計など、さまざまな分子生成問題に適用されています。
最適化戦略
組み合わせ最適化: 分子 (画像または文字列) の組み合わせエンコードには、組み合わせ最適化の分野のテクノロジーを直接適用できます。
継続的最適化: 分子は、ユークリッド空間の点群や幾何学マップ、または連続潜在空間の離散データをエンコードする深層生成モデルなどの連続ドメインで表現またはエンコードできます。
生成機械学習モデルの評価
生成モデルの評価には、計算による評価と実験による検証が必要です。標準的な指標には、有効性、独自性、新規性などが含まれます。ビルドのパフォーマンスを完全に評価するには、モデルを評価するときに複数のメトリックを考慮する必要があります。
実験検証
主に計算による貢献に焦点を当てた既存の研究とは対照的に、生成された分子は湿式実験を通じて明示的に検証される必要があります。生成モデルには弱点がないわけではありませんが、予測と実験の間に断絶があるのは、そのような検証を行うために必要な専門知識、費用、および長いテストサイクルにも原因があります。
モデル法則の生成
実験的検証を報告するほとんどの研究は、SMILESを操作オブジェクトとしてRNNおよび/またはVAEを使用します。 4 つの主な観察結果を要約します:
- SMILES は、限られた 3D 情報をキャプチャしますが、分散学習と小さなデータセットの微調整に適した効率的な表現として機能します。
- 実験的に検証された研究ターゲットの多くはキナーゼであり、ChEMBL などの人気のあるオープンソース データセットの一般的なターゲットです。
- 目標指向型手法の大多数は、リガンドベースおよび構造ベースの薬物設計を含む、最適化アルゴリズムとして強化学習を (単独またはコンポーネントとして) 使用します。
- AlphaFold の予測構造は、構造生成薬剤設計にうまく使用できます。
将来の方向性
機械学習アルゴリズムは低分子創薬に希望をもたらしましたが、直面する課題と機会はまだたくさんあります。
課題
- 流通外生成: 既知の化学物質は、化学物質の空間のほんの一部しか占めていません。深い生成モデルはトレーニング分布外の分子を提案できますが、それらが合理的であることを保証する必要があります。
- 非現実的な問題の定式化: 現実の創薬に適用できるモデルを開発するには、正確な問題の定式化が不可欠です。見落とされがちな基本的な側面には、構造力学、水の役割、エントロピーの寄与などが含まれますが、オラクル呼び出しへの無制限のアクセスなどの仮定は、誤って当然のこととみなされることがよくあります。これにはサンプル効率の問題も含まれており、最近の研究では、限られたオラクルの予算の下で効率的な目標指向の生成に向けて進歩しています。
- 忠実度の低いオラクル: 創薬関連の次元での効率的なスコア設計は依然として困難であり、産業環境で生成モデルを導入する際のボトルネックとなっています。たとえば、データ駆動型および物理ベースのワークフローでは、高スループットの結合親和性予測が不正確になることがよくあります。代替の高精度オラクルは存在しますが、その計算要件によりスケーラビリティが制限されます。さらに、高品質の注釈付きデータにアクセスできないことも、高精度で管理しやすい AI オラクルを開発する際の障害となっています。
- 統一された評価プロトコルの欠如: 医薬品候補の品質を評価するために使用される評価プロトコルは、良い医薬品とは何かを定義するための基準と密接に結びついています。 ML コミュニティで一般的に使用されている計算が容易な物理化学的記述子には疑問があり、パフォーマンスを完全に反映していないことは確かです。生成分子設計と仮想スクリーニングの間の厳密な比較も、あまり一般的ではありません。
- 大規模な調査とベンチマークの欠如: 多くの ML 手法が開発されていますが、多くの重要なタスクにおけるさまざまなモデル タイプで公正なベンチマーク結果が得られていません。たとえば、利用可能なデータの一部のみがトレーニングに使用され、モデルのスケーラビリティの理解が制限されていました。最近のベンチマークは、計算評価プロトコルの標準化に重要な貢献をしています。
- 解釈可能性の欠如: 解釈可能性は、分子生成モデルにおいて重要ではありますが、十分に研究されていない領域です。たとえば、生成または最適化プロセスで分子がどのように構築されるかについての洞察により、医薬品化学者が解釈できる化学規則が得られます。これは、医薬品化学者にアイデアを提出するために生成モデルがよく使用され、合成障壁によりすべての生成デザインをテストすることができないため、小分子の分野では特に重要です。
チャンス
- 低分子設計を超えた応用: ここで説明する方法は、多糖類、タンパク質 (特に抗体)、核酸、結晶構造、ポリマーなどの他の複雑な構造材料の設計に広範に応用できる可能性があります。
- 大規模な言語モデルは、科学文献を含む膨大な量の利用可能なトレーニング データによって可能になる、テキストに基づいた発見とエージェントとしての意思決定を通じて、分子設計に革命をもたらす可能性を実証します。さらに、分子構造に合わせてカスタマイズまたは微調整されたモデルは、研究者に自然言語処理における確立された進歩を活用する追加の機会を提供します。
- 創薬の後期段階: 分子設計/最適化は創薬の初期段階を占めます。しかし、有効性が限定的であること、ADME/T (吸収、分布、代謝、排泄、毒性) 特性が不十分であること、および安全性の問題による後期失敗は、医薬品開発パイプラインにおける課題となっています。限定的ではありますが、臨床データを設計パイプラインに統合することは、下流の成功率を向上させるための有望な方向性です。
- 重点モデルの目的: 創薬パイプラインは、製薬会社が長年の経験と学んだ厳しい教訓の結果です。 ML 研究者は、純粋な ab initio モデル (特に深い表現機能が不足している場合) を設計するのではなく、現実世界の制約に合わせて、複数年にわたるプロセスにわたって特定のステップでの改善に焦点を当てたモデルを設計する必要があります。
- 自動ラボ: ML 用に設計された分子にフィードバックを提供するためのハイスループット実験のニーズが高まっているため、設計、製造、テスト、分析のサイクルをスピードアップするための自動ラボにますます注目が集まっています。
著者: Du Yuanqi、コーネル大学コンピューター サイエンス学部博士課程 2 年生 彼の主な研究対象には、幾何学的な深層学習、確率モデル、サンプリング、検索、最適化問題、解釈可能性、およびこの分野での応用が含まれます。具体的な情報については、https://yuanqidu.github.io/をご覧ください。
以上がAI 低分子創薬の「百科事典」、コーネル大学、ケンブリッジ大学、EPFL などの研究者によってレビューされ、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相当します。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

編集者 | ScienceAI 限られた臨床データに基づいて、何百もの医療アルゴリズムが承認されています。科学者たちは、誰がツールをテストすべきか、そしてどのようにテストするのが最善かについて議論しています。デビン シン氏は、救急治療室で小児患者が治療を長時間待っている間に心停止に陥るのを目撃し、待ち時間を短縮するための AI の応用を模索するようになりました。 SickKids 緊急治療室からのトリアージ データを使用して、Singh 氏らは潜在的な診断を提供し、検査を推奨する一連の AI モデルを構築しました。ある研究では、これらのモデルにより医師の診察が 22.3% 短縮され、医療検査が必要な患者 1 人あたりの結果の処理が 3 時間近く高速化できることが示されました。ただし、研究における人工知能アルゴリズムの成功は、これを証明するだけです。
