化学反応は、創薬および有機化学研究の基礎です。研究コミュニティの間では、化学反応の基本的な規則を効果的に捉えることができる大規模な深層学習フレームワークに対するニーズが高まっています。
最近、北京大学と Wangshi Intelligence の研究チームは、反応ベースの分子事前トレーニングと生成タスクの間のギャップを埋める新しい方法を提案しました。
研究者たちは、有機化学のメカニズムに触発されて、モデルに帰納的バイアスを組み込むことを可能にする新しい事前トレーニング フレームワークを開発しました。この提案されたフレームワークは、困難な下流タスクを実行する際に最先端の結果を達成します。このフレームワークは、化学の知識を活用することで、少数の反応テンプレートに依存する現在の分子生成モデルの制限を克服します。広範な実験を通じて、モデルは高品質で合成可能な薬物のような構造を生成しました
全体として、この研究はさまざまな反応ベースのアプリケーションのための大規模な深層学習につながります。重要な一歩を踏み出しました。
研究のタイトルは「統合モデルによる化学反応の事前トレーニングと条件付き分子生成の間のギャップの橋渡し」で、2023 年 12 月 5 日に「Nature Machine Intelligence」に掲載されました。
#論文リンク: https://www.nature.com/articles/s42256-023-00764-9
ディープ ラーニング モデルは、多くの科学研究分野で広く使用されています。事前トレーニング フレームワークは、新しいタスクのシームレスな統合において積極的な役割を果たし、特にラベル付きデータが限られている場合にモデリング プロセスをスピードアップできます
創薬と有機化学の基礎研究 それは化学反応です。現在、データマイニングの研究と応用により、深層学習モデルを化学反応に使用できるようになりました。これらのデータに基づいて、化学反応の表現学習を詳しく調査するデータ駆動型の研究が数多く行われてきました。
表現学習とは、データから有用な特徴を自動的に学習し、それをさまざまなダウンストリームに使用することを指します。タスク。既存の方法は有機化学の基本理論を無視しており、その性能が制限されています。
化学反応に基づく分子生成反応分類タスクに加えて、化学反応に基づく分子生成も重要なアプリケーションです。以前の研究では、テンプレートベースの段階的な分子生成戦略がよく採用されていました。
これらのテンプレートベースの方法は、事前に定義された構成要素と反応に大きく依存しており、アクセス可能な化学空間が狭まっています。同様の傾向は反応生成物予測の分野でも見られ、テンプレートベースの方法では複雑な反応を外挿できませんが、この問題はテンプレートフリーの方法を使用することで解決できます。
反応ベースの分子生成タスクでは、テンプレートを使用しないメソッドは、テンプレート ベースのメソッドよりも一般化の利点も示します。ただし、既存のテンプレートフリー分子生成方法では、事前に定義された反応物ライブラリーに基づいて分子しか生成できません。これに加えて、医薬品設計におけるリード化合物またはリード最適化段階では、特定の構造を変更するための編集ツールとして化学反応を利用することがより有利です。結果として得られる化学ライブラリは、より少ない反応ステップで合成できる化学空間のサブセットに焦点を当てています。 #化学反応のための新しい包括的な深層学習フレームワーク
ここで、研究者は Uni -RXN と呼ばれる化学反応のための新しい包括的な深層学習フレームワークを提案します。これは、自己教師あり表現学習と条件付き生成モデリングという 2 つの基本タスクを解決することを目的としています。
# 表示: Uni-RXN の構成と方法。 (引用元: 論文)
既存の方法とは異なり、研究者らは化学反応専用に設計された一連の自己教師ありタスクを提案しました。これらのタスクには、反応中心の予測、一次反応物と副反応物のペアリング、反応物と生成物のペアリングが含まれます。困難な反応タスクに関する広範な評価において、Uni-RXN メソッドは最先端技術を上回り、化学反応のドメイン知識を効果的に取得できる能力を実証しました。得られた有望な結果は、広範囲にわたる下流アプリケーションへの道を切り開きます
Uni-RXN は、化学ルールを効果的に捕捉することにより、生成タスクに最適です。事前に定義された反応物のライブラリからフラグメントを選択することに依存する従来の方法とは異なり、Uni-RXN は分子構造を入力条件として受け取り、反応内の順列不変性を維持しながら、対応する反応物の表現を生成します。 Uni-RXN は、高密度ベクトル類似性検索パッケージの機能を活用して、大規模な反応物および試薬ライブラリから反応物を効率的に検索できます。その後、反応予測モデルを使用して製品出力が生成されます。
化学空間の限られたサブセットのみを探索するテンプレートベースの方法と比較して、Uni-RXN は、より広範囲の合成可能な薬物様構造の生成において優れたパフォーマンスを示します。この機能は、仮想ライブラリの列挙に特に適しており、包括的な統計分析とケーススタディによってサポートされています。
Uni-RXN アプローチには多くの利点があり、困難な化学反応分類タスクに対して豊富な表現を生成できます。他のベースライン モデルと比較して、Uni-RXN はカテゴリあたりわずか 4 データ ポイントで 58.7% の精度を達成します。
書き換えられた内容: 化学反応の分類精度については表 1 を参照してください。 (出典: 論文)
トランスフォーマー モデルを使用すると、最適化された化学反応データと最適化されていない化学反応データを区別できます。さらに、エンコーダは構造条件の生成にも簡単に適用できます。
書き換える必要がある内容は次のとおりです。 Uni-RXNのリトリーブ性能と注目のウェイト。 (出典: 論文)
結果は、提案されたモデルによって生成された分子の有利な特性を強調しており、それが創薬タスクに適していることを示しています。このモデルは、薬物のような特性と合成可能性を備えたより多くの分子を生成できます。
#図: Uni-RXNGen のプロセスとパフォーマンス。 (出典: 論文)
この生成されたモデルは、分子ドッキングなどの仮想スクリーニング手法と組み合わせることで、効率的な構造活性相関研究を実現できます。このモデルによって生成される巨大な合成薬物のような化学空間は、薬物の再利用またはヒット分子検索の真の陽性率を向上させることができます。
以上が北京大学と Wangshi Intelligence は、化学反応の事前トレーニングと条件付き分子生成の間のギャップを埋める新しいモデルを提案します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。