編集者| 大きな可能性を秘めています。
分子動力学などの従来のシミュレーション手法は、複雑で計算量が多くなりますが、システム動作のシミュレーションにおいては非常に正確です。対照的に、特徴量エンジニアリングに基づく機械学習手法は、複雑なシステムを扱う場合に優れたパフォーマンスを発揮しますが、ラベル付きデータが不足しているため、簡単に過剰適合の問題が発生する可能性があります。さらに、これらの機械学習手法は通常、単一のタスクを解決するように設計されており、マルチタスク学習はサポートされていません。したがって、適切な方法を選択するときは、精度、データ要件、タスクの複雑さなどの要素を比較検討して、特定の問題に最適なソリューションを見つける必要があります。
これらの課題に対処するために、清華大学、カリフォルニア大学、中山大学、蘇州大学、深センテクノロジー、AI for Science Institute (AISI、北京) で構成される多機関チームが協力し、現在、 MOF は、多目的ガス予測のために設計された、大規模な 3 次元 MOF 表現学習のための革新的なフレームワークです。 Uni-MOF は、科学研究と実用的なアプリケーションの両方に適しています。
Uni-MOF は、MOF 材料の多機能ガス吸着予測器とみなすことができ、シミュレーション データで優れた予測精度を示し、ガス吸着研究における機械学習の重要な応用を示しています。
この研究は「金属有機骨格における高精度ガス吸着予測のための包括的な変圧器ベースのアプローチ」と題され、2024 年 3 月 1 日に「Nature Communications」に掲載されました。
論文リンク: https://www.nature.com/articles/s41467-024-46276-xxx
統合された吸着フレームワークが必要
金属有機フレームワーク (MOF) は、構造特性と化学組成を調整できるため、ガス分離やその他の分野で広く使用されています。
MOF にはガス吸着の大きな可能性がありますが、その吸着能力を正確に予測することは依然として課題です。
分子動力学やモンテカルロ (MC) などの計算手法は、計算コストが高く実装が複雑であるため、大規模、マルチガス、ハイスループットの計算での使用が制限されます。さらに、ガス吸着は広範囲の条件で作用するため、予測がより複雑になります。
グラフ ニューラル ネットワークとトランスフォーマーは、MOF プロパティを適切に予測することが示されています。
吸着特性を予測するための既存のモデルは高性能で強力な予測機能を備えていますが、通常は単一のタスク、具体的には特定の条件下での特定のガスの吸着吸収率を予測するために設計されています。ただし、これらの単一タスクの予測に利用できるデータセットは多くの場合制限されており、モデルの一般化が妨げられています。
一方、異なる温度と圧力環境におけるさまざまな吸着ガスからのラベル付きデータを組み合わせると、動作条件全体にわたるトレーニングに適した大規模なデータセットを作成できます。データ量の増加により、モデルの一般化機能も強化され、実際の産業用途が向上します。したがって、これらのモデルを発展させるには、統一された吸着フレームワークが必要です。
さらに、大規模なラベルなし MOF 構造のアンサンブル表現学習、つまり事前トレーニングにより、モデルのパフォーマンスと表現機能をさらに向上させることができます。
Uni-MOF フレームワーク: 科学研究と実用的なアプリケーションの両方に適しています
これに触発されて、研究チームは、構造表現学習を使用する多目的ソリューションとして Uni-MOF フレームワークを提案しました。さまざまな条件下での MOF のガス吸着を予測します。
他の Transformer ベースのモデル (MOFormer や MOFTransformer など) と比較すると、Uni-MOF は Transformer ベースのフレームワークとして、事前トレーニングでナノ多孔質材料の 3 次元構造を特定して復元できるだけでなく、したがって、ナノ多孔質材料の堅牢性が大幅に向上します。さらに、微調整タスクでは温度、圧力、さまざまなガス分子などの動作条件が考慮されるため、Uni-MOF は科学研究と実用アプリケーションの両方に適しています。
Uni-MOF MOF 材料の包括的なガス吸着推定ツールとして、MOF の結晶情報ファイル (CIF) および関連するガス、温度、圧力パラメータのみが、幅広い動作範囲でのナノ多孔質材料の予測に必要です。条件、ガス吸着特性、 Uni-MOF フレームワークは使いやすく、モジュールを選択できます。
さらに、過剰適合の問題は、さまざまなシステム間吸収ラベル付きデータと大量のラベルなし構造データの表現学習を組み合わせることで効果的に解決されます。これにより、高品質のデータとデータの欠陥の両方が補われ、最終的にはガス吸着予測の精度が向上します。
Uni-MOF フレームワークにより、原子レベルの材料識別精度が可能になる一方、統合モデルにより Uni-MOF は工学的問題への適用性が高まります。専門分野だけでなく、真に統一モデルを実現することが材料分野の今後の方向性であることは間違いありません。 Uni-MOF は、ガス吸着分野における機械学習の先駆的な実践です。
Uni-MOF フレームワークの概要
Uni-MOF フレームワークには、3 次元ナノ多孔質結晶の事前トレーニングと、下流アプリケーション向けのマルチタスク予測の微調整が含まれています。
図 1: Uni-MOF フレームワークの概略図。 (出典: 論文)
3D 結晶材料での事前トレーニングにより、下流タスク、特に大規模なラベルなしデータの予測パフォーマンスが大幅に向上します。
トレーニング データ セットの監視が不十分であるという問題を解決するために、研究者は MOF 構造の大規模なデータセットを収集し、ToBaCCo.3.0 を使用して 300,000 を超える MOF を生成しました。マテリアルズ ゲノム ストラテジーと準反応性アセンブリ アルゴリズム (QReaxAA) に基づく COF のハイスループット構築は、包括的な COF ライブラリを確立するために実現可能です。 Uni-MOF は、材料の空間構成を通じて材料の構造特性を十分に学習できます。最も重要なのは化学結合の情報です。
Uni-MOF がより多様な資料を学習し、より幅広い資料への汎化能力を向上できるようにするために、事前トレーニング プロセス中に MOF と COF が仮想的かつ実験的に導入されました。 BERT や Uni-Mol のマスクされたラベリング タスクと同様に、Uni-MOF はマスクされた原子の予測タスクを採用しており、それにより事前トレーニングされたモデルが物質の空間構造を深く理解することが容易になります。
事前トレーニングの堅牢性を強化し、学習された表現を一般化するために、研究者らは MOF の元の座標にノイズを導入しました。事前トレーニング段階では、2 つのタスクが設計されています。 (1) ノイズのあるデータから元の 3D 位置を再構成し、(2) 遮蔽された原子を予測します。これらのタスクにより、モデルの堅牢性が強化され、下流の予測パフォーマンスが向上します。
多様な空間構成に加えて、材料特性データ ポイントの包括的なセットもモデルのトレーニングには重要です。データセットを充実させるために、研究者らはカスタム データ生成プロセスを確立しました (図 1b を参照)。
Uni-MOF の微調整は、事前トレーニングを通じて取得された表現の抽出と、大規模なデータセットを生成および収集するための自家製ワークフローの使用に基づいています。微調整プロセスでは、MOF および COF のさまざまな吸着条件下で約 3,000,000 個のラベル付きデータ ポイントを使用してモデルをトレーニングし、吸着容量の正確な予測を可能にしました。
Uni-MOF は、システム間ターゲット データの多様なデータベースを使用して微調整され、あらゆる状態の MOF のマルチシステム吸着特性を予測します。したがって、Uni-MOF は、MOF 吸着剤の吸着性能を予測するための統一された使いやすいフレームワークです。
最も重要なことは、Uni-MOF では人間が定義した構造的特徴を特定するために追加の労力を必要としないことです。代わりに、MOF の CIF と関連するガス、温度、圧力パラメーターで十分です。自己教師あり学習戦略と豊富なデータベースにより、Uni-MOF はさまざまな動作パラメータの下でナノ多孔質材料のガス吸着特性を予測できることが保証され、MOF 材料のガス吸着の熟練した推定ツールとなります。
予測精度最大 0.98、システム全体で予測
この研究では、631,000 を超える MOF および COF のデータベースに対して自己教師あり学習を実行し、予測精度は最大 0.98 でした。これは、3D 事前トレーニングに基づく表現学習フレームワークが、過剰適合を回避しながら MOF の複雑な構造情報を効果的に学習していることを示しています。
Uni-MOF は、3 つの主要なデータベース (hMOF_MOFX-DB、CoRE_MOFX-DB、および CoRE_MAP_DB) のガス吸着性能を予測するために適用され、十分なデータを持つデータベースでは最大 0.98 の予測精度が達成されました。
#図 2: 大規模データベースにおける Uni-MOF の全体的なパフォーマンス。 (出典: 論文)
データセットが完全にサンプリングされている場合、Uni-MOF は 0.83 以上の予測精度を維持するだけでなく、低圧でのみ吸着を予測することで、高圧での高性能を正確に選択できます。 . 吸着剤、実験的スクリーニング結果と一致しています。したがって、Uni-MOF は、材料科学分野における機械学習技術の応用における大きな進歩となります。
図 3: 低圧予測と高圧実験値に基づく吸着等温線。各曲線はラングミュア フィットを表します。 (出典: 論文)
さらに、Uni-MOF フレームワークは、単一システムのタスクと比較して、システム間のデータセットで優れたパフォーマンスを示し、次のような予測精度で未知のガスの吸着特性を正確に予測できます。 0.85と高く、高い予測力と汎用性を示します。
図 4: Uni-MOF クロスシステム予測ケース。 (出典: 論文)
研究によると、事前トレーニングされた自己教師あり学習戦略が Uni-MOF の堅牢性と下流予測パフォーマンスを効果的に向上させることができます。
図 5: Uni-MOF と事前トレーニングなしの Uni-MOF の比較。 (出典: 論文)
Uni-MOF は、三次元構造に関する広範な事前トレーニングを通じて MOF の構造的特徴を効果的に学習し、hMOF の 0.99 という高い決定係数を達成します。
図 6: 構造特性の予測と分析。 (出典: 論文)
さらに、t-SNE (t 分布確率的近傍埋め込み) 解析により、微調整段階で構造特徴をさらに学習でき、異なる吸着挙動を持つ構造を適切に識別できることが確認されました。学習された表現とガス吸着ターゲットの間に強い相関があることが示されています。
図 7: hMOF および CoRE_MOF データセットにおける MOF 構造表現の視覚化、t-SNE 法によって計算された低次元埋め込み。 (出典: 論文)
要約すると、Uni-MOF フレームワークは、MOF 材料の多機能予測プラットフォームとして機能し、MOF のガス吸着推定器として機能し、さまざまな動作条件下でのガス吸着を高精度で予測します。材料科学の分野で幅広い応用の可能性があります。
以上が予測精度は 0.98 と高く、清華大学、深セン科技などが Transformer に基づく MOF 材料の多機能予測フレームワークを提案しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。