化學反應是藥物設計和有機化學研究的基礎。研究界越來越需要一種能夠有效捕捉化學反應基本規則的大規模深度學習框架。
近日,來自北京大學和望石智慧的研究團隊提出了一種新方法來彌合基於反應的分子預訓練和生成任務之間的差距。
受到有機化學機制的啟發,研究人員開發了一種新的預訓練框架,使其能夠將歸納偏差納入模型中。這個提出的框架在執行具有挑戰性的下游任務時取得了最先進的結果。透過掌握化學知識,該框架克服了目前依賴少量反應模板的分子生成模型的局限性。在大量的實驗中,該模型產生了高品質的可合成藥物樣結構
總的來說,該研究向各種基於反應的應用程式的大規模深度學習框架邁出了重要一步。
研究以《Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model》為題,於2023 年12 月5 日發佈在《Nature Machine Intelligence》上。
論文連結:https://www.nature.com/articles/s42256-023-00764-9
深度學習模型已經在許多科學研究領域中廣泛應用。預訓練框架對於新任務的無縫整合起到了積極作用,可以加快建模過程,特別是在標記資料有限的情況下
藥物設計和有機化學研究的基礎是化學反應。目前,資料探勘的研究和應用已經使得深度學習模型可以用於化學反應。基於這些數據,已經有許多數據驅動的研究深入研究化學反應的表徵學習
表徵學習是指從數據中自動學習有用的特徵,然後將其用於各種下游任務。現有方法忽略了有機化學的基本理論,限制了其性能。
除了反應分類任務外,基於化學反應的分子生成也是一個重要的應用。在早期的研究中,通常採用基於模板的逐步分子生成策略
這些基於模板的方法在很大程度上依賴預定義的構建模組和反應,這縮小了可訪問的化學空間。在反應產物預測領域也發現了類似的趨勢,其中基於模板的方法不能外推到複雜的反應;這個問題可以透過使用無模板方法來解決。
在基於反應的分子生成任務中,無模板方法也表現出了優於基於模板方法的泛化優勢。然而,現有的無模板分子生成方法只能基於預先定義的反應物庫來產生分子。除此之外,對於藥物設計中的先導化合物或先導化合物優化階段,利用化學反應作為編輯工具來修改給定的結構是更有利的。產生的化學庫將重點放在可以用更少的反應步驟合成的化學空間的子集。
在此,研究人員提出了一個新的、全面的化學反應深度學習框架,稱為Uni -RXN。旨在解決兩個基本任務:自監督表徵學習和條件生成建模。
展示:Uni-RXN的組成與方法。 (引自:論文)
與現有方法不同,研究人員提出了一套專門針對化學反應精心設計的自監督任務。這些任務包括反應中心預測、主反應物與子反應物配對、反應物-產物配對。在對具有挑戰性的反應任務的廣泛評估中,Uni-RXN 方法超越了最先進的水平,證明了其有效捕捉化學反應領域知識的能力。所獲得的有希望的結果為廣泛的下游應用鋪平了道路
#透過有效捕捉化學規則,Uni-RXN 非常適合生成任務。與依賴從預定義反應物庫中選擇片段的傳統方法不同,Uni-RXN 將分子結構作為輸入條件並產生相應反應物的表示,同時保持反應內的排列不變性。利用密集向量相似性搜尋包的強大功能,Uni-RXN 能夠從大型反應物和試劑庫中高效檢索反應物。隨後,採用反應預測模型來產生產物輸出。
與僅探索化學空間的有限子集的基於模板的方法相比,Uni-RXN 在產生更廣泛的可合成藥物樣結構方面表現出卓越的性能。這項特點使其特別適合虛擬 library 枚舉,並得到全面統計分析和案例研究的支持。
Uni-RXN 方法有許多優勢,可以為具有挑戰性的化學反應分類任務產生豐富的表達。相對於其他基準模型,Uni-RXN 在每個類別僅提供4 個數據點的情況下,準確率達到了58.7%
重寫後的內容:化學反應分類的準確度見表1。 (資料來源:論文)
Transformer 模型可以用來區分最佳化和未最佳化的化學反應資料。此外,編碼器也可以輕鬆應用於結構條件的生成
#需要重新改寫的內容是:圖表展示了Uni-RXN的檢索效能和注意力權重。 (資料來源:論文)
研究結果強調了所提出的模型所產生的分子具有有利的特性,這使得它們非常適合於藥物發現任務。此模型可以產生更多具有類似藥物特性和可合成性的分子
#圖示:Uni-RXNGen 流程與效能。 (資料來源:論文)
與分子對接等虛擬篩選方法結合,此生成模型可以實現高效的構效關係研究。此模型產生的巨大的可合成類藥物化學空間可以提高藥物再利用或命中分子搜尋的真陽性率。
以上是北大&望石智慧提出全新模型:彌合化學反應預訓練與條件分子生成之間的鴻溝!的詳細內容。更多資訊請關注PHP中文網其他相關文章!