編輯 | ScienceAI
透過運用Transformer等先進的序列模型,將單步逆合成預測問題轉化為從產物SMILES表示到反應物SMILES表示的翻譯任務,已經成為一種廣泛採用且效果顯著的策略。
然而,這種方法往往忽略了一個關鍵點:在反應物和產物之間,存在大量可以直接利用的相同子結構。對這些子結構利用的不充分限制了模型預測的效率和準確性。
2024年7月,上海交通大學人工智慧研究院金耀輝、許岩岩研究團隊在《Journal of Cheminformatics》上發表文章《Ualign: pushing the limit of template-free retrosynthesis prediction with supervised SMI)。
在研究中作者提出一套單步逆合成預測流程,該流程整合了一種無監督的SMILES序列對齊技術,旨在提高化學反應預測的準確性和效率。實驗結果證明了模型在預測逆合成路徑方面的有效性,並表明該模型有潛力成為藥物發現的有價值的工具。 論文連結:化學鍵視為邊,分子結構便能自然轉化為圖結構。相較於序列模型,圖神經網路更能捕捉分子內部的拓樸結構訊息,從而實現更精確的分子表徵。
此外,與其他圖結構相比,化學分子中的化學鍵攜帶了豐富的化學屬性資訊。 基於這些優勢,作者提出了一種基於圖注意力網絡(Graph Attention Network)的變體,用以取代Transformer模型中的編碼器部分,旨在為下游應用提供更為強大的分子表徵能力。圖:模型示意圖
在單步逆合成預測中,採用序列建模的方法通常意味著必須從零開始構建反應物的結構,而不能構建反應物的結構,而不能構建反應物的結構,而不能從零開始構建反應物的結構,而不能構建反應物的結構,而不能構建反應物的結構,而不能構建反應物的結構,而不能構建反應物在已有產物的基礎上進行直接修改,以有效地利用反應物和產物之間相同的子結構。這種做法在一定程度上限制了生成結果的準確性。
考慮到序列建模常用的分子SMILES表徵實際上是按照深度優先搜索的順序排列分子中的原子和化學鍵,如果能向模型提供每個產物原子在反應物SMILES表徵中出現的位置信息,將有助於模型辨識並重複使用在反應過程中未發生改變的子結構。這將顯著降低模型預測反應物的難度,並提高預測的準確性。 從序列建模的角度來看,常用的分子SMILES表徵實質上是依據深度優先搜尋(DFS)的順序對分子中的原子和化學鍵進行排列。若能提供模型中每個原子在反應物SMILES表徵中的位置信息,將極大促進模型對未發生改變的子結構的識別和復用,從而顯著降低預測反應物的難度,提高預測的準確性。 然而,直接提供這種對應資訊可能會在模型訓練過程中引入資訊外洩的風險。為避免此問題,研究者提出了一種創新的策略,旨在不洩漏標籤資訊的前提下,優化模型對反應物分子結構的理解和預測能力。 考慮到SMILES序列表徵源自於分子圖上的深度優先搜索,並且反應物與產物間的大部分子結構具有高度一致性,對於給定的任意產物的DFS順序,必然存在一個與之對應的反應物分子圖上的DFS順序,使得反應物和產物上的對應原子出現的順序幾乎相同。 基於此策略,研究者不僅將產物分子結構納入模型輸入,也引入了反應物分子的DFS順序作為輸入的一部分。 此外,研究者根據上述策略產生了與給定反應物DFS順序高度一致的產物分子DFS順序,並利用這一順序生成反應物的SMILES表徵,作為模型訓練的目標。 這種設計使得反應物和產物之間的相似子結構在模型的輸入和輸出中以幾乎相同的順序排列,從而簡化了模型學習反應物和產物相同結構對應關係的過程,並有助於辨識反應過程中發生改變的基團。即便在從零開始建構反應物結構的情況下,這種方法也能有效地重複使用產物結構訊息,顯著提高預測的準確率。
尤為重要的是,由於產物的DFS順序僅基於其分子結構信息,不依賴任何關於反應物的信息作為標註,這種方法有效避免了模型訓練過程中的標籤洩露問題。
同時,這種無監督的SMILES對齊方式在訓練過程中無需引入額外的監督信號,從而避免了複雜的數據標註和多任務學習中的優化難題,為分子逆合成預測領域提供了一種新穎且高效的研究途徑。
實驗結果展示
在本項研究中,作者對多個分子逆合成預測數據集進行了系統性評估,涵蓋了廣泛使用的USPTO-50K數據集,以及數據量更龐大的USPTO- MIT和USPTO-FULL。
評估模型效能時,採用了top-k準確率作為主要的評估指標。在USPTO-50K資料集上,作者不僅檢視了模型產生的SMILES序列的合法性,也透過大規模預訓練的正向反應預測模型,對模型輸出的合成方案進行了實際可行性的回環驗證。
表1:USPTO-50K逆合成預測的Top-k準確率
USPTO-50K資料集的實驗結果匯總於表1,顯示在未指定特定反應類型的條件下,UAlign模型在USPTO -50K資料集上的top-5準確率高達84.6%,顯著優於其他無模板的基準模型。
表2:USPTO-MIT逆合成預測的Top-k準確率
表2和表3的實驗數據進一步證實,在更大規模的數據集USPTO-MIT和USPTO-FULL上,UAlign模型以顯著的優勢超越了其他各類基線模型。
表3:USPTO-FULL上逆合成預測的Top-k準確率
此外,表4的實驗結果表明,與其他基於SMILES的逆合成預測模型相比,UAlign模型產生的反應物SMILES序列具有較高的合法性。
表4:在USPTO-50K上對反應類別未知的逆合成預測的Top-k SMILES 有效性
表5的實驗數據進一步凸顯了UAlign模型在產生合理且可行的合成方案方面的優勢。原因在於,UAlign所提出的合成方案中,有較高比例的方案能夠透過正向反應預測模型的驗證,即這些方案在經過相應的化學反應後,能夠有效地轉化為給定的目標產物。
表5:USPTO-50K上反應類別未知的逆合成預測Top-k往返準確率
這些實驗結果不僅驗證了UAlign模型在分子逆合成預測任務中的高效性和準確性,也突顯了其在處理大規模資料集時的卓越性能和在產生高品質合成方案方面的顯著優勢。
為驗證UAlign模型在實際生產中的應用潛力,作者選取了近兩年內由美國食品藥品監督管理局(FDA)批准上市的新藥作為合成目標,通過模型的多次迭代調用,成功獲取了合成路線。模型對這兩種藥物合成路線的預測結果與文獻中記錄的路徑高度一致。
此外,對於第三種藥物,模型所預測的合成路線也得到了化學領域專家的可行性認可。這些合成路徑不僅涵蓋了多種反應類型,還包含了諸如環狀化合物的合成以及涉及多個反應中心的單步逆合成預測等複雜情況。
上述實驗結果充分證明了UAlign模型不僅能夠應對多樣化的反應類型,而且在實際生產中具有較高的應用價值。這顯示UAlign模型在分子逆合成預測領域具有強大的實用性與彈性,能夠為藥物合成提供有效的解決方案。
未來展望
UAlign模型憑藉其卓越的性能和靈活性,完全有能力作為建造多步驟逆合成系統的基石。它能夠與各種搜尋演算法以及多目標最佳化技術結合,形成一套高效、智慧的逆合成路徑規劃系統。
此外,作者也在積極探索將UAlign演算法與先進的硬體設備融合,以打造自動化的無人實驗室來推進藥物發現和合成過程的自動化,為化學研究和藥物開發領域帶來革命性的變革。
以上是化學逆合成SOTA!上海交大團隊提出SMILES對齊技術實現高效逆合成預測的詳細內容。更多資訊請關注PHP中文網其他相關文章!