化學逆合成SOTA!上海交大團隊提出SMILES對齊技術實現高效逆合成預測
編輯 | ScienceAI
透過運用Transformer等先進的序列模型,將單步逆合成預測問題轉化為從產物SMILES表示到反應物SMILES表示的翻譯任務,已經成為一種廣泛採用且效果顯著的策略。
然而,這種方法往往忽略了一個關鍵點:在反應物和產物之間,存在大量可以直接利用的相同子結構。對這些子結構利用的不充分限制了模型預測的效率和準確性。
2024年7月,上海交通大學人工智慧研究院金耀輝、許岩岩研究團隊在《Journal of Cheminformatics》上發表文章《Ualign: pushing the limit of template-free retrosynthesis prediction with supervised SMI)。
在研究中作者提出一套單步逆合成預測流程,該流程整合了一種無監督的SMILES序列對齊技術,旨在提高化學反應預測的準確性和效率。實驗結果證明了模型在預測逆合成路徑方面的有效性,並表明該模型有潛力成為藥物發現的有價值的工具。化學鍵視為邊,分子結構便能自然轉化為圖結構。相較於序列模型,圖神經網路更能捕捉分子內部的拓樸結構訊息,從而實現更精確的分子表徵。
此外,與其他圖結構相比,化學分子中的化學鍵攜帶了豐富的化學屬性資訊。 基於這些優勢,作者提出了一種基於圖注意力網絡(Graph Attention Network)的變體,用以取代Transformer模型中的編碼器部分,旨在為下游應用提供更為強大的分子表徵能力。圖:模型示意圖
在單步逆合成預測中,採用序列建模的方法通常意味著必須從零開始構建反應物的結構,而不能構建反應物的結構,而不能構建反應物的結構,而不能從零開始構建反應物的結構,而不能構建反應物的結構,而不能構建反應物的結構,而不能構建反應物的結構,而不能構建反應物在已有產物的基礎上進行直接修改,以有效地利用反應物和產物之間相同的子結構。這種做法在一定程度上限制了生成結果的準確性。
考慮到序列建模常用的分子SMILES表徵實際上是按照深度優先搜索的順序排列分子中的原子和化學鍵,如果能向模型提供每個產物原子在反應物SMILES表徵中出現的位置信息,將有助於模型辨識並重複使用在反應過程中未發生改變的子結構。這將顯著降低模型預測反應物的難度,並提高預測的準確性。 從序列建模的角度來看,常用的分子SMILES表徵實質上是依據深度優先搜尋(DFS)的順序對分子中的原子和化學鍵進行排列。若能提供模型中每個原子在反應物SMILES表徵中的位置信息,將極大促進模型對未發生改變的子結構的識別和復用,從而顯著降低預測反應物的難度,提高預測的準確性。 然而,直接提供這種對應資訊可能會在模型訓練過程中引入資訊外洩的風險。為避免此問題,研究者提出了一種創新的策略,旨在不洩漏標籤資訊的前提下,優化模型對反應物分子結構的理解和預測能力。 考慮到SMILES序列表徵源自於分子圖上的深度優先搜索,並且反應物與產物間的大部分子結構具有高度一致性,對於給定的任意產物的DFS順序,必然存在一個與之對應的反應物分子圖上的DFS順序,使得反應物和產物上的對應原子出現的順序幾乎相同。 基於此策略,研究者不僅將產物分子結構納入模型輸入,也引入了反應物分子的DFS順序作為輸入的一部分。 此外,研究者根據上述策略產生了與給定反應物DFS順序高度一致的產物分子DFS順序,並利用這一順序生成反應物的SMILES表徵,作為模型訓練的目標。 這種設計使得反應物和產物之間的相似子結構在模型的輸入和輸出中以幾乎相同的順序排列,從而簡化了模型學習反應物和產物相同結構對應關係的過程,並有助於辨識反應過程中發生改變的基團。即便在從零開始建構反應物結構的情況下,這種方法也能有效地重複使用產物結構訊息,顯著提高預測的準確率。
尤為重要的是,由於產物的DFS順序僅基於其分子結構信息,不依賴任何關於反應物的信息作為標註,這種方法有效避免了模型訓練過程中的標籤洩露問題。
同時,這種無監督的SMILES對齊方式在訓練過程中無需引入額外的監督信號,從而避免了複雜的數據標註和多任務學習中的優化難題,為分子逆合成預測領域提供了一種新穎且高效的研究途徑。
實驗結果展示
在本項研究中,作者對多個分子逆合成預測數據集進行了系統性評估,涵蓋了廣泛使用的USPTO-50K數據集,以及數據量更龐大的USPTO- MIT和USPTO-FULL。
評估模型效能時,採用了top-k準確率作為主要的評估指標。在USPTO-50K資料集上,作者不僅檢視了模型產生的SMILES序列的合法性,也透過大規模預訓練的正向反應預測模型,對模型輸出的合成方案進行了實際可行性的回環驗證。
表1:USPTO-50K逆合成預測的Top-k準確率

USPTO-50K資料集的實驗結果匯總於表1,顯示在未指定特定反應類型的條件下,UAlign模型在USPTO -50K資料集上的top-5準確率高達84.6%,顯著優於其他無模板的基準模型。
表2:USPTO-MIT逆合成預測的Top-k準確率

表2和表3的實驗數據進一步證實,在更大規模的數據集USPTO-MIT和USPTO-FULL上,UAlign模型以顯著的優勢超越了其他各類基線模型。
表3:USPTO-FULL上逆合成預測的Top-k準確率

此外,表4的實驗結果表明,與其他基於SMILES的逆合成預測模型相比,UAlign模型產生的反應物SMILES序列具有較高的合法性。
表4:在USPTO-50K上對反應類別未知的逆合成預測的Top-k SMILES 有效性

表5的實驗數據進一步凸顯了UAlign模型在產生合理且可行的合成方案方面的優勢。原因在於,UAlign所提出的合成方案中,有較高比例的方案能夠透過正向反應預測模型的驗證,即這些方案在經過相應的化學反應後,能夠有效地轉化為給定的目標產物。
表5:USPTO-50K上反應類別未知的逆合成預測Top-k往返準確率

這些實驗結果不僅驗證了UAlign模型在分子逆合成預測任務中的高效性和準確性,也突顯了其在處理大規模資料集時的卓越性能和在產生高品質合成方案方面的顯著優勢。
為驗證UAlign模型在實際生產中的應用潛力,作者選取了近兩年內由美國食品藥品監督管理局(FDA)批准上市的新藥作為合成目標,通過模型的多次迭代調用,成功獲取了合成路線。模型對這兩種藥物合成路線的預測結果與文獻中記錄的路徑高度一致。
此外,對於第三種藥物,模型所預測的合成路線也得到了化學領域專家的可行性認可。這些合成路徑不僅涵蓋了多種反應類型,還包含了諸如環狀化合物的合成以及涉及多個反應中心的單步逆合成預測等複雜情況。
上述實驗結果充分證明了UAlign模型不僅能夠應對多樣化的反應類型,而且在實際生產中具有較高的應用價值。這顯示UAlign模型在分子逆合成預測領域具有強大的實用性與彈性,能夠為藥物合成提供有效的解決方案。
未來展望
UAlign模型憑藉其卓越的性能和靈活性,完全有能力作為建造多步驟逆合成系統的基石。它能夠與各種搜尋演算法以及多目標最佳化技術結合,形成一套高效、智慧的逆合成路徑規劃系統。
此外,作者也在積極探索將UAlign演算法與先進的硬體設備融合,以打造自動化的無人實驗室來推進藥物發現和合成過程的自動化,為化學研究和藥物開發領域帶來革命性的變革。
以上是化學逆合成SOTA!上海交大團隊提出SMILES對齊技術實現高效逆合成預測的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为
