「両方の長所」、分子をゼロから設計、化学言語モデリング用のディープラーニングアーキテクチャ S4-AI-php.cn

「両方の長所」、分子をゼロから設計、化学言語モデリング用のディープラーニングアーキテクチャ S4

編集者 | KX

生成深層学習は医薬品設計を再構築しています。このプロセスでは、分子を分子の列として生成する化学言語モデル (CLM) が特に重要です。

最近、オランダのアイントホーフェン工科大学の研究者らは、最新の深層学習アーキテクチャ (S4) を新規薬剤設計に導入しました。

構造化状態空間シーケンス (S4) モデルは、シーケンスのグローバルプロパティの学習において優れたパフォーマンスを備えています。そのため、S4 はゼロから設計された化学言語モデリングを進歩させることができますか?

その答えを提供するために、研究者らは、生理活性化合物の同定や薬物様分子や天然物の設計など、さまざまな創薬タスクに関して、最先端の CLM に対して S4 を体系的にベンチマークしました。 S4 は、複雑な分子特性を学習しながら、さまざまな足場を探索する優れた能力を備えています。

最後に、S4 によって設計された 10 分子のうち 8 分子は、キナーゼ阻害剤に前向きに適用された場合、分子動力学シミュレーションによって非常に活性が高いと予測されました。

要約すると、S4 は化学言語モデリング、特に生物活性や複雑な分子特性の捕捉において大きな可能性を秘めています。状態空間モデルが分子タスクに適用されたのはこれが初めてです。

関連研究は「構造化状態空間シーケンスモデルを使用した化学言語モデリング」と題され、7月22日に「Nature Communications」に掲載されました。

「両方の長所」、分子をゼロから設計、化学言語モデリング用のディープラーニングアーキテクチャ S4

論文リンク: https://www.nature.com/articles/s41467-024-50469-9

望ましい特性を持つ分子をゼロから設計することは、「干し草の山の中の針」の問題です。最大 10^60 個の小さな分子を含む化学宇宙は、ほとんど知られていないままです。

生成ディープラーニングは、手作業で設計されたルールなしで目的の分子を生成できるため、時間を節約し、低コストで化学の世界を探索する方法が可能になります。特に、CLM は実験的に検証された生物活性設計を生み出しており、強力な分子ジェネレーターとして際立っています。

CLM は、シーケンス処理用に開発されたアルゴリズムを使用して、「化学の言語」、つまり、化学的に有効で (構文)、望ましい特性 (意味論) を持つ分子を生成する方法を学習します。これは、Simplified Molecular Input Line Entry System (SMILES) など、分子構造を文字列シンボルとして表すことによって実現されます。これらの分子列は、モデルのトレーニングとその後のテキスト形式の分子の生成に使用されます。

「両方の長所」、分子をゼロから設計、化学言語モデリング用のディープラーニングアーキテクチャ S4

イラスト: 化学言語モデリングのための構造化状態空間シーケンス (S4) モデルの主要な概念。 (出典: 論文)

CLM アーキテクチャ:

長短期記憶 (LSTM) モデル
Transformer アーキテクチャ

構造化状態空間シーケンスモデル (S4):

新しいメンバーを急速に開発
オーディオ、画像、テキストの生成に優れています
「二重性」があります:
- 入力シーケンス全体をトレーニングして複雑なグローバルプロパティを学習します
- 一度に1つの文字列要素を生成します

アプリケーション:

研究者は SMILES 文字列の化学言語モデリングに S4 を適用します
医薬品設計に関連するさまざまなタスクに対するベンチマーク:
- 生物活動の学習
- 化学空間探査
- 天然物設計

のデザイン薬物のような分子と天然産物:

研究者は、薬物のような分子や天然産物の設計など、最先端の CLM
に対して S4 をベンチマークしました
まず、薬物を設計する S4 の能力を分析しましたChEMBL データベースから抽出された低分子 (SMILES 長さが 100 トークン未満)
1. すべての CLM は、有効な分子の 91% 以上、固有の分子の 91% 以上、および新しい分子の 81% 以上を生成しました。
S4 は、ベースライン (約 4000 ～ 12,000 以上) よりも多くの新しい分子を生成することにより、最も効率的でユニークで新規な分子を設計し、SMILES 文字列の「化学文法」を学習する優れた能力を示します。
既存の de novo 設計手法と比較した S4 の可能性は、MOSES ベンチマークでもさらに確認されており、S4 は常に最高パフォーマンスの深層学習手法の 1 つにランクされています。
S4 は、薬物のような分子よりもさらに困難な分子実体に対してさらにテストされています。
この目的のために、研究者は天然物 (NP) を操作する能力を評価しました。
合成小分子と比較して、NP はより複雑な分子構造と環系を持ち、sp3 混成炭素原子とキラル中心の割合がより多くなる傾向があります。
これらの特徴は、より長距離の依存関係を伴う、平均して長い SMILES シーケンスに対応しており、天然産物を CLM にとって困難なテストケースにしています。

すべての CLM は天然物を設計できますが、その性能は薬物様分子と比較して低くなります。 S4 設計は有効な分子の数が最も多く、S4 よりも約 6000 ～ 12,000 分子多く (7 ～ 13% 優れています)、一方、LSTM は S4 よりも約 2000 分子 (2%) 多く、新規性が最も高くなります。
最後に、天然物などのより大きな分子を設計する際の実際の適用性をテストするために、SMILESの長さを増加するときのCLMアーキテクチャのトレーニングと生成速度も分析されました。分析では、その二重の性質により、S4 はトレーニング中に GPT と同じくらい高速 (どちらも LSTM より約 1.3 倍高速) であり、生成に関しても最速であることが強調されています。これは、GPT と LSTM と比較して「両方の長所」を提供する分子設計の効率的な方法として S4 の導入をさらに推奨しています。
前向きのデノボ設計
研究者らは、S4 を使用して、腫瘍治療の関連標的であるマイトジェン活性化プロテインキナーゼ 1 (MAPK1) の阻害剤の設計に焦点を当てた前向きの in silico 研究を実施しました。次に、設計の推定上の生物学的活性を分子動力学 (MD) によって評価しました。
図: S4 を使用した推定 MAPK1 阻害剤の前向きの de novo デザイン。 (出典: 論文) S4 モデルは微調整され、その後、微調整されたモデルの最後の 5 エポックを使用して 256K 分子が生成されました。設計は、対数尤度スコアとトレーニングセットに対する足場の類似性によってランク付けおよびフィルタリングされ、最高スコアの 10 個の分子が MD シミュレーションを使用してさらに特徴付けされました。
10 の設計のうち 8 つは、MD によって意図された標的に対して生物活性があると予測され、最も近い微調整された分子と同等以上の親和性が予測されました。これらの結果は、新規薬剤設計における S4 の可能性をさらに裏付けます。
分子 S4 の機会要約すると、この研究は構造化状態空間 (S4) に焦点を当て、化学言語モデリングに状態空間モデルを導入した最初の研究です。トレーニング中の畳み込みやループ生成など、S4 のユニークな二重性により、SMILES 文字列から始まるデノボ設計に特に適しています。
研究者らは、さまざまな創薬タスクについて GPT および LSTM との体系的な比較を実施し、S4 の利点を明らかにしました。ループ生成 (LSTM および S4) は化学文法の学習とさまざまな足場の探索には優れていますが、アンサンブル学習全体には効果的ではありませんSMILES 配列 (GPT および S4) は、生物学的活性などの特定の複雑な特性をうまく捕捉します。
S4 には、「両方の長所」という二重の性質があります。効率的で多様な分子の設計においては LSTM と同等かそれ以上の性能を発揮し、計算効率を維持しながら複雑な分子特性の捕捉においては体系的にベースラインを上回る性能を発揮します。 MAPK1 阻害における
S4 の応用は MD シミュレーションによって検証されており、強力な生理活性分子を設計する可能性をさらに実証しています。将来的には、研究者らは S4 をウェットラボ実験と組み合わせて、現場での影響を強化する予定です。
S4 には、より長い配列 (大環状ペプチドやタンパク質配列など) やその他の分子タスク (有機反応計画や構造ベースの薬剤設計など) での可能性など、分子科学でまだ研究されていない側面がたくさんあります。
将来的には、分子発見における S4 の応用は増え続け、LSTM や GPT などの広く使用されている化学言語モデルに取って代わる可能性があります。