準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊
編輯 | 紫羅蘭
可合成分子的化學空間是非常廣闊的。有效地探索這個領域需要依賴計算篩選技術,例如深度學習,以便快速地發現各種有趣的化合物。
將分子結構轉換為數字表示形式,並開發相應演算法來產生新的分子結構是進行化學發現的關鍵。
最近,英國格拉斯哥大學的研究團隊提出了一種基於電子密度訓練的機器學習模型,用於產生主客體binders。這種模型能夠以簡化分子線性輸入規格(SMILES)格式讀取數據,準確率高達98%,從而實現對分子在二維空間的全面描述。
透過變分自編碼器產生主客體系統的電子密度和靜電勢的三維表示,然後透過梯度下降優化客體的生成。最後,利用Transformer將客體轉化為SMILES,實現了對客體結構的有效表示和轉換。
模型成功地應用於已建立的分子主體系統,葫蘆脲和金屬有機籠,結果發現了9 個先前驗證的CB[6] 客體和7 個未報告的客體,並發現了4 個未報告的 客體。
研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》為題,於 2024 年 3 月 8 日發表在《Nature Computational Science》上。
目前主客體化學研究費力且昂貴
字串,例如SMILES,分子以「單字」表示,例如「C1C=C1 」(環丙烯),是最廣泛的分子數字表示形式之一。使用最先進的自然語言處理,這些表示法與 AI 技術直接相容,例如循環神經網路或 Transformer 模型。
將分子表示為 3D 體積(volume)的優點是可以應用最新的 AI 技術,例如捲積神經網路。到目前為止,3D 體積作為分子描述符的大多數應用都集中在預測特性或從頭藥物設計。然而,由於缺乏有效的方法將這些體積與清晰的分子結構相關聯,目前使用 3D 體積作為分子描述符受到阻礙。
在過去的40 年裡,由於分子containers(中空有機分子或中空超分子結構)傾向於透過將分子與空腔中的體相隔離來改變分子的化學和物理性質,因此主客體系統得到了越來越多的研究。主客體系統有廣泛的應用,從催化到生物醫學工程、材料科學和反應分子的穩定性。
葫蘆脲(CB[n])和金屬有機籠是最成功的分子 containers 設計之一。儘管主客體化學已經取得了顯著的成就,但現有系統中未報導的客體的發現或新的主客體系統的優化,仍然是一個費力且昂貴的迭代過程,阻礙了科學進步的步伐。
一種基於電子密度訓練的機器學習模型
在此,研究證明,將主體分子表示為3D 體積(即,以靜電勢修飾的電子密度)可以透過電腦輔助發現該主體的客體,而無需了解主體的化學結構之外的主客體系統。
在這個過程中,研究人員建立了一個 Transformer 模型,可以透過訓練將 3D 體積分子描述子有效地轉換為 SMILES 表示,從而產生專業化學家可用的分子結構。
研究還發現,透過用靜電勢資料修飾分子的電子密度,可以將分子有效地表示為3D 體積,這兩個特徵足以透過使用自回歸採樣方案來優化3D 描述符之間的體積形狀和電荷相互作用來發現主體的客體分子。

Transformer 模型完美地預測了其SMILES 表示,準確度為98.125%。單一token 的預測準確率為99.114%。Transformer 的解碼器也可以被隔離為純生成模型,如GPT。
工作流程概述
#電腦輔助發現葫蘆脲 CB[6] 和金屬有機籠 的實驗驗證客體需要一個雙層工作流程。首先,設計了一個電腦工作流程來為這兩個主體產生潛在客體分子的虛擬庫。然後建立了體外工作流程,其中包括由化學專家從這些虛擬庫中選擇最有希望的客體候選物進行實驗測試。
CB[6] 和 客體分子的電腦生成是透過上圖所示的工作流程實現的,該工作流程包括以下步驟:
(1)3D 電子密度體積訓練集源自公開的QM9 資料集中的分子。然後,透過使用變分自編碼器(VAE)對這個3D 電子密度體積訓練集進行建模,創建了一個
“分子生成器”,從而允許產生超出QM9 資料集派生的3D 電子密度體積。此 VAE 分子產生器的工作原理是將 3D 電子密度體積編碼到一維 (1D) 潛在空間中,然後透過從該 1D 潛在空間解碼來產生與分子相對應的 3D 電子密度體積。有趣的是,這種方法只能產生化學上合理的分子。
(2)VAE 分子生成器和梯度下降優化演算法用於為給定的主體分子生成客體分子庫(以 3D 電子密度體積的形式)。客體分子是透過最小化主體和客體電子密度之間的重疊,同時優化它們的靜電相互作用而產生的。
(3)由於人類操作員將3D 電子密度體積轉換為化學可解釋的結構可能具有挑戰性,因此訓練了Transformer 模型將這些體積轉換為SMILES 表示,以一種更容易被專業化學家理解的格式捕捉描述分子所需的所有必要資訊。在透過電腦模擬產生 CB[6] 和 的潛在客體分子後,建立了體外工作流程來對最有希望的候選分子進行實驗測試。
下面描述了所使用的實驗過程。
(1) 由於其電腦工作流程產生的 CB[6] 和 的客體由化學專家進行分類以進行實驗測試。有希望進行測試的客體是根據其與 CB[6] 或
的已知客體的結構相似性、專業化學家的直覺及其商業可用性來選擇的。
(2)採用直接滴定法測定CB[6] 或
的親和力。值得注意的是,在電腦中產生的客體包含先前已知與主體(或密切相關)結合的分子和無視專家直覺的分子的混合物。
兩個常見主客體系統的實驗驗證
研究人員透過實驗驗證了其工作流程,為兩個兩個常見的主客體系統:葫蘆脲(CB[n])和金屬有機籠,成了文獻驗證和未報告的客體。
演算法為CB[6] 產生了9 個先前已知的客體。也確定了CB[6] 的7 個潛在新客體,化學專家認為值得進行實驗測試。CB[6] 對這些新客體的親和力透過在HCO2H/H2O 1:1v/v 中直接滴定來評估。
在所有7 種情況下,都觀察到主客體系統的一組訊號,顯示該系統在NMR 時間尺度上進行快速交換。絡合後,客體分子的脂肪鏈共振向上場移動,顯示它們被封裝在CB[6] 腔內。發現 與CB[6] 的締合常數遵循先前建立的趨勢,範圍從13.5 M^−1 到5,470 M^−1。

對於 ,最佳化演算法僅產生未知的客體分子,四種潛在的未報告客體與[Pd214](BArF)4 之間的結合強度透過CD2Cl2 中的直接
滴定進行測試。在所有四種情況中,客體對[Pd214](BArF)4 的親和力與先前報告的CD2Cl2 中「小型中性客體」的親和力較低範圍一致(Ka 從44 M^-1 到529 M^−1)。
雖然研究重點是使用 SMILES 表示法來表示分子,但也測試了其他類似的格式,例如自引用嵌入字串 (SELFIES)。
儘管QM9 資料集包含大小完美的分子,可以成為CB[6] 等主體的客體,但該研究遇到的一個限制是金屬有機籠 具有更大的空腔,需要更大的客體分子。在未來的研究中,將使用包含更大分子的資料集,例如 GDB-17 資料集。
之後,「我們的目標是將新配體的選擇嵌入到生成過程中,在自動化合成平台(例如Chemputer 機器人)上自主合成分子,關閉優化和測試之間的循環,創建一個網路-物理閉環系統。」
以上是準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此

編輯|KX逆合成是藥物發現和有機合成中的關鍵任務,AI越來越多地用於加快這一過程。現有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產物之間存在很大重疊。受此啟發,浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產生前驅化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現高品質和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50 K上取得了出色的性能,top-1準確率達到60.8%。
