「兩全其美」，從頭設計分子，深度學習架構S4用於化學語言建模-人工智慧-PHP中文網

「兩全其美」，從頭設計分子，深度學習架構S4用於化學語言建模

編輯 | KX

生成式深度學習正在重塑藥物設計。化學語言模型 (CLM) 以分子串的形式生成分子，對此過程特別重要。

近日，來自荷蘭埃因霍芬理工大學（Eindhoven University of Technology）的研究人員將一種最新的深度學習架構（S4）引入從頭藥物設計中。

結構化狀態空間序列（Structured State Space Sequence，S4）模型在學習序列的全局屬性方面表現卓越，那麼 S4 能否推進從頭設計的化學語言建模？

為了給出答案，研究人員系統地在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試，例如生物活性化合物的鑑定以及類藥物分子和天然產物的設計。 S4 在學習複雜分子特性的同時，也具有探索多種支架的優越能力。

最後，當前瞻性地應用於激酶抑制劑時，S4 設計的 10 個分子中有 8 個被分子動力學模擬預測為高活性。

總而言之，S4 在化學語言建模中極具潛力，尤其是在捕捉生物活性和複雜分子性質方面。這是首次將狀態空間模型應用於分子任務。

相關研究以「Chemical language modeling with structured state space sequence models」為題，於 7 月 22 日發佈在《Nature Communications》上。

「兩全其美」，從頭設計分子，深度學習架構S4用於化學語言建模

論文連結：https://www.nature.com/articles/s41467-024-50469-9

從頭開始設計具有所需特性的分子是一個「大海撈針」的問題。化學宇宙包含多達 10^60 個小分子，在相當大的程度上仍處於未知狀態。

生成式深度學習無需手工設計規則即可生產所需的分子，從而以省時、低成本的方式探索化學宇宙。特別是，CLM 已經產生了經過實驗驗證的生物活性設計，並作為強大的分子發生器脫穎而出。

CLM 採用為序列處理開發的演算法來學習「化學語言」，即如何產生化學有效（語法）並具有所需特性（語義）的分子。這是透過將分子結構表示為字串符號來實現的，例如簡化分子輸入行輸入系統 (SMILES) 等。然後，這些分子字串用於模型訓練，並隨後以文字形式產生分子。

「兩全其美」，從頭設計分子，深度學習架構S4用於化學語言建模

圖示：化學語言建模的結構化狀態空間序列（S4）模型的關鍵概念。（資料來源：論文）

CLM 架構：

長短期記憶(LSTM) 模型
Transformer 架構

結構化狀態空間序列模型(S4)：

快速發展的新成員
在音訊、影像和文字產生中表現優異
具有「雙重性質」：
- 在整個輸入序列上進行訓練以學習複雜的全局屬性
- 一次產生一個字串元素

應用：

研究者將S4 應用於SMILES 字串上的化學語言建模
針對與藥物設計相關的各種任務進行基準測試：
- 學習生物活性
- 化學空間探索
- 自然產品設計

類藥物分子和天然產物設計：

研究人員對S4 進行基準測試，與最先進的CLM 比較
例如類藥物分子和天然產物的設計
首先，分析了S4 設計從ChEMBL 資料庫中提取的類藥物小分子（SMILES 長度低於100 個tokens）的能力

1. 所有 CLM 均產生了超過 91% 的有效分子、91% 的獨特分子和 81% 的新分子。
S4 透過產生比基準更多的新分子（大約4000 到12,000 多個）來設計最有效、最獨特和最新穎的分子，並顯示出良好的學習SMILES 字串「化學語法」的能力。
與現有的從頭設計方法相比，S4 的潛力在 MOSES 基準上得到了進一步證實，其中 S4 始終位列表現最好的深度學習方法之列。
S4 也針對比類藥物分子更具挑戰性的分子實體進行了進一步測試。
為此，研究人員評估了其設計天然產物 (NPs) 的能力。
與合成小分子相比，NPs 往往具有更複雜的分子結構和環系統，以及更大比例的 sp3 雜化碳原子和手性中心。
這些特徵對應於平均更長的 SMILES 序列，具有更多的長程依賴性，並使天然產物成為 CLM 的具有挑戰性的測試案例。

所有 CLM 都可以設計天然產物，但與類藥物分子相比，其表現較低。 S4 設計的有效分子數量最多，比 S4 多出約 6000 到 12,000 個分子（好 7-13%），而 LSTM 的新穎性最高，比 S4 多出約 2000 個分子（2%）。
最後，也分析了增加 SMILES 長度時 CLM 架構的訓練和生成速度，以測試它們在設計更大分子（如天然產物）時的實際適用性。分析強調，由於其雙重性，S4 在訓練過程中與 GPT 一樣快（兩者都比 LSTM 快約 1.3 倍），並且在生成方面最快。這進一步主張引入 S4 作為分子設計的有效方法，與 GPT 和 LSTM 相比，「兼具兩全其美」。
前瞻性從頭設計
研究人員使用 S4 進行了一項前瞻性電腦模擬研究，重點是設計絲裂原活化蛋白激酶 1 (MAPK1) 的抑制劑，這是腫瘤治療的相關標靶。然後透過分子動力學 (MD) 評估設計的假定生物活性。
圖示：使用 S4 進行假定 MAPK1 抑制劑的前瞻性從頭設計。（資料來源：論文）S4 模型經過微調，然後使用微調模型的最後五個 epochs 產生 256K 個分子。透過對數似然得分和與訓練集的支架相似性對設計進行排序和篩選，10 個得分最高的分子使用 MD 模擬進行進一步表徵。
透過 MD 預測，10 個設計中有 8 個對預期目標具有生物活性，並且預測親和力與最接近的微調分子相當或更高，這些結果進一步證實了 S4 用於從頭藥物設計的潛力。
分子 S4 的機會總之，本研究率先將狀態空間模型引入化學語言建模，重點在於結構化狀態空間 (S4)。 S4 獨特的雙重性質，包括訓練中的捲積和循環生成，使其特別適合從 SMILES 字串開始的從頭設計。
研究人員在各種藥物發現任務上與GPT 和LSTM 進行了系統比較，揭示了S4 的優勢：雖然循環生成(LSTM 和S4) 在學習化學語法和探索各種支架方面更勝一籌，但對整個SMILES 序列進行整體學習(GPT 和S4) 在捕捉某些複雜特性（如生物活性）方面表現出色。
S4 具有雙重性質，「兼具兩全其美」：它在設計有效且多樣化的分子方面與LSTM 表現相當或更好，並且在捕捉複雜分子性質方面系統性地優於基準，同時保持計算效率。
S4 在 MAPK1 抑制中的應用已透過 MD 模擬得到驗證，這進一步展示了其設計強效生物活性分子的潛力。未來，研究人員將前瞻性地將 S4 與濕實驗室實驗結合，以增強其在該領域的影響。
S4 在分子科學領域還有許多方面有待探索，例如其在更長序列（例如大環肽和蛋白質序列）和其他分子任務（例如有機反應規劃和基於結構的藥物設計）中的潛力。
未來，S4 在分子發現中的應用將持續增加，並有可能取代 LSTM 和 GPT 等廣泛應用的化學語言模型。

以上是「兩全其美」，從頭設計分子，深度學習架構S4用於化學語言建模的詳細內容。更多資訊請關注PHP中文網其他相關文章！