「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

WBOY
發布: 2024-08-05 20:58:22
原創
923 人瀏覽過

「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

編輯 | KX

生成式深度學習正在重塑藥物設計。化學語言模型 (CLM) 以分子串的形式生成分子,對此過程特別重要。

近日,來自荷蘭埃因霍芬理工大學(Eindhoven University of Technology)的研究人員將一種最新的深度學習架構(S4)引入從頭藥物設計中。

結構化狀態空間序列(Structured State Space Sequence,S4)模型在學習序列的全局屬性方面表現卓越,那麼 S4 能否推進從頭設計的化學語言建模?

為了給出答案,研究人員系統地在一系列藥物發現任務上對 S4 與最先進的 CLM 進行了基準測試,例如生物活性化合物的鑑定以及類藥物分子和天然產物的設計。 S4 在學習複雜分子特性的同時,也具有探索多種支架的優越能力。

最後,當前瞻性地應用於激酶抑制劑時,S4 設計的 10 個分子中有 8 個被分子動力學模擬預測為高活性。

總而言之,S4 在化學語言建模中極具潛力,尤其是在捕捉生物活性和複雜分子性質方面。這是首次將狀態空間模型應用於分子任務。

相關研究以「Chemical language modeling with structured state space sequence models」為題,於 7 月 22 日發佈在《Nature Communications》上。

「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

論文連結:https://www.nature.com/articles/s41467-024-50469-9

從頭開始設計具有所需特性的分子是一個「大海撈針」的問題。化學宇宙包含多達 10^60 個小分子,在相當大的程度上仍處於未知狀態。

生成式深度學習無需手工設計規則即可生產所需的分子,從而以省時、低成本的方式探索化學宇宙。特別是,CLM 已經產生了經過實驗驗證的生物活性設計,並作為強大的分子發生器脫穎而出。

CLM 採用為序列處理開發的演算法來學習「化學語言」,即如何產生化學有效(語法)並具有所需特性(語義)的分子。這是透過將分子結構表示為字串符號來實現的,例如簡化分子輸入行輸入系統 (SMILES) 等。然後,這些分子字串用於模型訓練,並隨後以文字形式產生分子。

「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

圖示:化學語言建模的結構化狀態空間序列(S4)模型的關鍵概念。 (資料來源:論文)

CLM 架構:

  • 長短期記憶(LSTM) 模型
  • Transformer 架構

結構化狀態空間序列模型(S4):

  • 快速發展的新成員
  • 在音訊、影像和文字產生中表現優異
  • 具有「雙重性質」:

    • 在整個輸入序列上進行訓練以學習複雜的全局屬性
    • 一次產生一個字串元素

應用:

  • 研究者將S4 應用於SMILES 字串上的化學語言建模
  • 針對與藥物設計相關的各種任務進行基準測試:

    • 學習生物活性
    • 化學空間探索
    • 自然產品設計

類藥物分子和天然產物設計:

  • 研究人員對S4 進行基準測試,與最先進的CLM 比較
  • 例如類藥物分子和天然產物的設計
  • 首先,分析了S4 設計從ChEMBL 資料庫中提取的類藥物小分子(SMILES 長度低於100 個tokens)的能力

    「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

    1. 所有 CLM 均產生了超過 91% 的有效分子、91% 的獨特分子和 81% 的新分子。
  • S4 透過產生比基準更多的新分子(大約4000 到12,000 多個)來設計最有效、最獨特和最新穎的分子,並顯示出良好的學習SMILES 字串「化學語法」的能力。
  • 與現有的從頭設計方法相比,S4 的潛力在 MOSES 基準上得到了進一步證實,其中 S4 始終位列表現最好的深度學習方法之列。
  • S4 也針對比類藥物分子更具挑戰性的分子實體進行了進一步測試。
  • 為此,研究人員評估了其設計天然產物 (NPs) 的能力。
  • 與合成小分子相比,NPs 往往具有更複雜的分子結構和環系統,以及更大比例的 sp3 雜化碳原子和手性中心。
  • 這些特徵對應於平均更長的 SMILES 序列,具有更多的長程依賴性,並使天然產物成為 CLM 的具有挑戰性的測試案例。

    「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模


    所有 CLM 都可以設計天然產物,但與類藥物分子相比,其表現較低。 S4 設計的有效分子數量最多,比 S4 多出約 6000 到 12,000 個分子(好 7-13%),而 LSTM 的新穎性最高,比 S4 多出約 2000 個分子(2%)。
    最後,也分析了增加 SMILES 長度時 CLM 架構的訓練和生成速度,以測試它們在設計更大分子(如天然產物)時的實際適用性。分析強調,由於其雙重性,S4 在訓練過程中與 GPT 一樣快(兩者都比 LSTM 快約 1.3 倍),並且在生成方面最快。這進一步主張引入 S4 作為分子設計的有效方法,與 GPT 和 LSTM 相比,「兼具兩全其美」。
    前瞻性從頭設計
    研究人員使用 S4 進行了一項前瞻性電腦模擬研究,重點是設計絲裂原活化蛋白激酶 1 (MAPK1) 的抑制劑,這是腫瘤治療的相關標靶。然後透過分子動力學 (MD) 評估設計的假定生物活性。

    「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模

    圖示:使用 S4 進行假定 MAPK1 抑制劑的前瞻性從頭設計。 (資料來源:論文)S4 模型經過微調,然後使用微調模型的最後五個 epochs 產生 256K 個分子。透過對數似然得分和與訓練集的支架相似性對設計進行排序和篩選,10 個得分最高的分子使用 MD 模擬進行進一步表徵。
    透過 MD 預測,10 個設計中有 8 個對預期目標具有生物活性,並且預測親和力與最接近的微調分子相當或更高,這些結果進一步證實了 S4 用於從頭藥物設計的潛力。
    分子 S4 的機會總之,本研究率先將狀態空間模型引入化學語言建模,重點在於結構化狀態空間 (S4)。 S4 獨特的雙重性質,包括訓練中的捲積和循環生成,使其特別適合從 SMILES 字串開始的從頭設計。
    研究人員在各種藥物發現任務上與GPT 和LSTM 進行了系統比較,揭示了S4 的優勢:雖然循環生成(LSTM 和S4) 在學習化學語法和探索各種支架方面更勝一籌,但對整個SMILES 序列進行整體學習(GPT 和S4) 在捕捉某些複雜特性(如生物活性)方面表現出色。
    S4 具有雙重性質,「兼具兩全其美」:它在設計有效且多樣化的分子方面與LSTM 表現相當或更好,並且在捕捉複雜分子性質方面系統性地優於基準,同時保持計算效率。
    S4 在 MAPK1 抑制中的應用已透過 MD 模擬得到驗證,這進一步展示了其設計強效生物活性分子的潛力。未來,研究人員將前瞻性地將 S4 與濕實驗室實驗結合,以增強其在該領域的影響。
    S4 在分子科學領域還有許多方面有待探索,例如其在更長序列(例如大環肽和蛋白質序列)和其他分子任務(例如有機反應規劃和基於結構的藥物設計)中的潛力。
    未來,S4 在分子發現中的應用將持續增加,並有可能取代 LSTM 和 GPT 等廣泛應用的化學語言模型。

以上是「兩全其美」,從頭設計分子,深度學習架構S4用於化學語言建模的詳細內容。更多資訊請關注PHP中文網其他相關文章!

來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!