分子グラフ学習用のトランスフォーマーベースのモデルである MolE を紹介します。 MolE は、原子識別子とグラフ接続性の両方を入力トークンとして提供することにより、分子グラフを直接操作します。原子識別子は、さまざまな原子プロパティを 1 つの整数にハッシュすることによって計算され、グラフの接続性はトポロジカル距離行列として与えられます。 MolE は、その基本アーキテクチャとして Transformer を使用します。これは、以前にグラフにも適用されていました。変圧器の性能は、セルフアテンション機構の広範な使用に大きく起因すると考えられます。標準のトランスフォーマーでは、入力トークンはクエリ、キー、値 (Q,K,Vin {R}^{Ntimes d}) に埋め込まれ、次のように自己注意を計算するために使用されます。
MolE は、分子グラフ用に特別に設計された変換モデルです。原子識別子とグラフ接続性の両方をそれぞれ入力トークンと相対位置情報として提供することで、グラフを直接操作します。アトム識別子は、さまざまなアトミック プロパティを 1 つの整数にハッシュすることによって計算されます。特に、このハッシュには次の情報が含まれます:
- 隣接する重原子の数、
- 隣接する水素原子の数、
- 原子価から結合した水素の数を引いたもの、
- 原子電荷、
- 原子量、
- 接続された結合タイプ、
- リングメンバーシップ。
アトム識別子 (半径 0 のアトム環境とも呼ばれる) は、RDKit に実装されている Morgan アルゴリズムを使用して計算されました。
MolE は、トークンに加えて、分子グラフ内の原子の相対位置をエンコードするため、重要な誘導バイアスであるグラフ接続情報も入力として受け取ります。この場合、グラフの接続性はトポロジカル距離行列 d として与えられます。ここで、dij は原子 i と原子 j を隔てる結合上の最短経路の長さに対応します。
MolE は、基本アーキテクチャとして Transformer を使用します。これは、以前にグラフにも適用されていました。変圧器の性能は、セルフアテンション機構の広範な使用に大きく起因すると考えられます。標準のトランスフォーマーでは、入力トークンはクエリ、キー、値 (Q,K,Vin {R}^{Ntimes d}) に埋め込まれ、次のように自己注意を計算するために使用されます。
ここで、({H}_{0}in {R}^{Ntimes d}) は自己注意後の出力隠れベクトル、(d) は隠れ空間の次元です。トランスフォーマーの各層を通じて位置情報を明示的に伝達するために、MolE は DeBERTa からの解きほぐされたセルフアテンションを使用します。
ここで ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) は、トークン情報を含むコンテキスト クエリ、キー、および値です (標準のセルフアテンションで使用されます)、および ({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d}) は位置ですクエリとキー(j{{{rm{th}}}}) 原子に対する (i{{{rm{th}}}}) 原子の相対位置をエンコードします。解きほぐされたアテンションを使用すると、入力原子の順序に関して MolE が不変になります。
前述したように、自己教師あり事前トレーニングでは、ラベルのない大規模なデータセットからラベル付きの小さなデータセットに情報を効果的に転送できます。ここでは、2 段階の事前トレーニング戦略を紹介します。最初のステップは、化学構造の表現を学習するための自己教師付きアプローチです。このために、BERT のようなアプローチを使用します。このアプローチでは、各アトムが 15% の確率でランダムにマスクされ、選択されたトークンの 80% がマスク トークンに置き換えられ、10% が語彙のランダム トークンに置き換えられます。 10%は変わらない。 BERT とは異なり、予測タスクはマスクされたトークンの正体を予測することではなく、半径 2 の対応する原子環境 (または機能原子環境) を予測することです。これは、マスクされた原子から 2 つ以下の結合によって分離されているすべての原子を意味します。 。入力 (半径 0) とラベル (半径 2) に異なるトークン化戦略を使用したこと、および情報漏洩を避けるために入力トークンには隣接するアトムの重複データが含まれていないことに留意することが重要です。これにより、モデルは局所的な分子の特徴を学習しながら、隣接する原子からの情報を集約するようになります。 MolE は、半径 4 の原子環境の埋め込みをコンテキスト原子 (つまり、それを超えた周囲の原子) の埋め込みと一致させることをタスクとするコンテキスト予測アプローチとは対照的に、半径 2 の各原子環境に事前定義されたラベルを持つ分類タスクを介して学習します。半径 4) ネガティブサンプリング経由。 2 番目のステップでは、大規模なラベル付きデータセットを使用したグラフレベルの教師あり事前トレーニングを使用します。 Hu らによって提案されているように、ノードレベルとグラフレベルの事前トレーニングを組み合わせると、ローカルおよびグローバルな特徴を学習し、最終的な予測パフォーマンスを向上させることができます。事前トレーニング手順の詳細については、「方法」セクションを参照してください。
MolE は、ZINC および ExCAPE-DB の約 8 億 4,200 万分子の超大規模データベースを使用して事前トレーニングされ、自己教師ありスキーム (補助損失あり) とそれに続く約 456,000 分子を使用した教師付き事前トレーニングを採用しました (詳細については「方法」セクションを参照)詳細)。一連の下流タスクで MolE を微調整することにより、分子埋め込みの品質を評価します。この場合、Therapeutic Data Commons (TDC) ベンチマークに含まれる 22 の ADMET タスクのセットを使用します。このベンチマークは、数百 (例: 475 化合物を含む DILI) から数千までの範囲のデータセットに対する 9 つの回帰タスクと 13 の二項分類タスクで構成されています化合物の数 (約 13,000 の化合物を使用した CYP 阻害タスクなど)。このベンチマークを使用する利点は次のとおりです
以上がMolE: 分子グラフ学習用のトランスフォーマー モデルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。