化学反応の発見は、実験データをいかに早く取得できるかだけでなく、化学者がそのデータをいかに理解しやすいかによっても影響されます。新しい触媒反応の機構的基礎を明らかにすることは特に複雑な問題であり、多くの場合、計算および物理有機化学の専門知識が必要です。ただし、触媒反応は最も効率的な化学プロセスであるため、触媒反応を研究することが重要です。
最近、英国のマンチェスター大学 (UoM) 化学科の Burés 氏と Larrosa 氏は、ディープ ニューラル ネットワーク モデルが次のようなことができることを実証した機械学習モデルを報告しました。ユーザーによる追加入力なしで、通常のダイナミクス学習データを分析し、対応する機構カテゴリを自動的に解明するようにトレーニングを受けることができます。このモデルはさまざまなタイプのメカニズムを優れた精度で識別します。
今回の調査結果は、AI によるメカニズム分類がメカニズムの解明を簡素化および自動化できる強力な新しいツールであることを示しています。この研究により、完全に自動化された有機反応の発見と開発がさらに前進すると期待されています。
研究のタイトルは「機械学習を用いた有機反応機構の分類」で、2023年1月25日の「Nature」に掲載されました。 。
論文リンク: https://www.nature.com/articles/s41586 - 022-05639-4
製品の製造に必要な基本ステップの正確な順序は、合成方法を合理的に改善し、新しい触媒を設計し、工業プロセスを安全にスケールアップするために重要です。反応メカニズムを解明するには、複数の反応速度曲線を収集する必要があり、人間の専門家がデータに対して速度論解析を実行する必要があります。反応モニタリング技術は過去数十年にわたって、速度論的データ収集を完全に自動化できるまでに大幅に進歩しましたが、機構解明の基礎となる理論的枠組みは同じペースで進化していません。
現在の速度論解析パイプラインは、実験データから速度論的特性を抽出すること、考えられるすべてのメカニズムの速度論的特性を予測すること、実験的に抽出された特性を比較のために予測特性と組み合わせるという 3 つの主要なステップで構成されています。
1 世紀以上にわたり、化学者は反応速度から機構に関する情報を抽出してきました。現在でも使用されている方法の 1 つは、出発物質の最初の数パーセントの消費に焦点を当てて、反応の初速度を評価することです。この方法は、ほとんどの場合、時間の経過に伴う反応物濃度の変化が反応の開始時に線形であり、分析が簡単であるため、一般的です。この手法は洞察力に富んでいますが、時間の経過のほとんどにわたって発生する反応速度と濃度の変化を無視しています。
過去数十年にわたり、反応プロセス全体を通じて反応成分の濃度を評価するためのより高度な方法が開発されてきました。これらの方法は、反応速度図から反応ステップに関与する成分の数 (反応成分の順序とも呼ばれる) を明らかにする数学的手法によってさらに容易になります。これらの技術は確かに化学反応性についての洞察を提供し続けるでしょうが、触媒システムの反応速度論的挙動を説明するより包括的な機構仮説を提供するのではなく、反応成分の順序を分析することに限定されています。
図 1: 反応速度論解析の関連性と最先端の技術。 (出典: 論文)
機械学習は化学者が問題を解決する方法に革命をもたらしています。分子と分子を合成するルートを設計し、反応メカニズムを理解します。 Burés と Larrosa は現在、機械学習モデルを使用して、シミュレートされた速度論的特性に基づいて反応を分類することにより、この革命を速度論的分析にもたらしています。
ここでは、研究者らは、シミュレートされた動力学データでトレーニングされた深層学習モデルが、時間的濃度分布からさまざまなメカニズムを正確に解明できることを実証しています。機械学習モデルは、速度則の導出や速度論的特性の抽出と予測の必要性を排除することで速度論的分析を簡素化し、すべての合成実験室での反応メカニズムの解明を大幅に促進します。
利用可能なすべての反応速度論データの総合的な分析により、このメソッドは反応曲線を調べる能力を向上させ、反応速度論分析中の潜在的な人的エラーを排除し、利用可能な反応速度論の範囲を拡大します。分析には、非定常状態 (活性化および非活性化プロセスを含む) および可逆反応が含まれます。このアプローチは、現在利用可能な速度論的分析方法を補完し、最も困難な状況で特に役立つでしょう。
研究者らは、反応メカニズムの 20 カテゴリーを定義し、各カテゴリーの速度則を開発しました。各メカニズムは、一連の運動定数 (k1, … kn #) で構成されます。 ##) と化学物質の濃度は、常微分方程式 (ODE) 関数によって数学的に記述されます。次に、これらの方程式を解き、反応物の崩壊と生成物の生成を記述する何百万ものシミュレーションを生成しました。これらのシミュレートされた動力学データは、各機構クラスの特徴的な特徴を識別する学習アルゴリズムをトレーニングするために使用されます。結果として得られる分類モデルは、初期および時間濃度データを含む反応速度曲線を入力として使用し、反応の機構クラスを出力します。
# 図 2: メカニズムの範囲とデータ構成。 (出典: 論文)
深層学習モデルのトレーニングには大量のデータが必要になることが多く、このデータを実験的に収集する必要がある場合、大きな課題が生じる可能性があります。Burés と Larrosa のアルゴリズムのトレーニングへのアプローチは、大量の実験的運動データを生成するというボトルネックを回避します。この場合、研究者らは定常状態の近似を使用せずに、一連の ODE を数値的に解き、モデルのトレーニングと検証用に 500 万のダイナミクス サンプルを生成することができました。
モデルには 576,000 のトレーニング可能なパラメーターが含まれており、2 種類のニューラル ネットワークの組み合わせを使用します: (1) 長期および短期記憶ニューラル ネットワーク。時間データ シーケンスの処理に使用されます ( (2) 非時間データ (つまり、各反応速度論における触媒の初期濃度と長期短期記憶から抽出された特徴) を処理するための完全に接続されたニューラル ネットワーク。モデルは、合計が 1 になる各メカニズムの確率を出力します。
研究者らは、シミュレートされた運動曲線のテスト セットを使用してトレーニングされたモデルを評価し、これらの曲線が 92.6% の精度で機構クラスに正しく割り当てられていることを実証しました。
# 図 3: テスト セットでの機械学習モデルのパフォーマンス。各運動曲線には 6 つの点があります。間に合うように。 (出典: 論文)
#このモデルは、「ノイズの多い」データが意図的に導入された場合でも良好に機能します。つまり、実験データの分類に使用できることを意味します。
# 図 4: 機械学習モデルのパフォーマンスに対するエラーとデータ ポイントの数の影響。 (出典: 論文)
最後に、研究者らは、以前に報告されたいくつかの実験的動力学曲線を使用してモデルのベンチマークを行いました。予測されたメカニズムは、以前の反応速度論的研究の結論とよく一致しています。場合によっては、モデルでは、元の作業では検出されなかった機構の詳細も特定されました。困難な反応に対して、モデルは 3 つの非常に類似した機構カテゴリーを提案します。しかし、著者らは、この結果はバグではなくモデルの特徴であると正しく述べており、メカニズムを解明するにはさらに具体的な実験が必要であることを示唆しています。
図 5: 実験速度論データを使用したケーススタディ。 (出典: 論文)
要約すると、Burés と Larrosa は、速度論的研究から機構的仮説を導き出す長いプロセスを自動化するだけでなく、困難な物質の速度論的分析を実行する方法を開発しました。反応メカニズム。データ分析におけるあらゆる技術の進歩と同様に、結果として得られるメカニズムの分類は、さらなる実験的サポートを必要とする仮説としてみなされる必要があります。反応速度論データを誤って解釈するリスクは常に存在しますが、少数の実験に基づいて正しい反応経路を高精度で特定するアルゴリズムの能力により、より多くの研究者が反応速度論解析を試みるようになる可能性があります。
したがって、このアプローチは、特に化学者が機械学習アルゴリズムに精通するにつれて、反応開発プロセスへの速度論的分析の組み込みを普及させ、促進する可能性があります。
以上が機械学習モデルが有機反応機構を優れた精度で分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。