準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊

PHPz
發布: 2024-03-27 14:16:12
轉載
1093 人瀏覽過

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

編輯 | 紫羅蘭

可合成分子的化學空間是非常廣闊的。有效地探索這個領域需要依賴計算篩選技術,例如深度學習,以便快速地發現各種有趣的化合物。

將分子結構轉換為數字表示形式,並開發相應演算法來產生新的分子結構是進行化學發現的關鍵。

最近,英國格拉斯哥大學的研究團隊提出了一種基於電子密度訓練的機器學習模型,用於產生主客體binders。這種模型能夠以簡化分子線性輸入規格(SMILES)格式讀取數據,準確率高達98%,從而實現對分子在二維空間的全面描述。

透過變分自編碼器產生主客體系統的電子密度和靜電勢的三維表示,然後透過梯度下降優化客體的生成。最後,利用Transformer將客體轉化為SMILES,實現了對客體結構的有效表示和轉換。

模型成功地應用於已建立的分子主體系統,葫蘆脲和金屬有機籠,結果發現了9 個先前驗證的CB[6] 客體和7 個未報告的客體,並發現了4 個未報告的 准确率 >98%,基於電子密度的GPT用於化學研究,登Nature 子刊客體。

研究以《Electron density-based GPT for optimization and suggestion of host–guest binders》為題,於 2024 年 3 月 8 日發表在《Nature Computational Science》上。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

論文連結:https://www.nature.com/articles/ s43588-024-00602-x

目前主客體化學研究費力且昂貴

字串,例如SMILES,分子以「單字」表示,例如「C1C=C1 」(環丙烯),是最廣泛的分子數字表示形式之一。使用最先進的自然語言處理,這些表示法與 AI 技術直接相容,例如循環神經網路或 Transformer 模型。

將分子表示為 3D 體積(volume)的優點是可以應用最新的 AI 技術,例如捲積神經網路。到目前為止,3D 體積作為分子描述符的大多數應用都集中在預測特性或從頭藥物設計。然而,由於缺乏有效的方法將這些體積與清晰的分子結構相關聯,目前使用 3D 體積作為分子描述符受到阻礙。

在過去的40 年裡,由於分子containers(中空有機分子或中空超分子結構)傾向於透過將分子與空腔中的體相隔離來改變分子的化學和物理性質,因此主客體系統得到了越來越多的研究。主客體系統有廣泛的應用,從催化到生物醫學工程、材料科學和反應分子的穩定性。

葫蘆脲(CB[n])和金屬有機籠是最成功的分子 containers 設計之一。儘管主客體化學已經取得了顯著的成就,但現有系統中未報導的客體的發現或新的主客體系統的優化,仍然是一個費力且昂貴的迭代過程,阻礙了科學進步的步伐。

一種基於電子密度訓練的機器學習模型

在此,研究證明,將主體分子表示為3D 體積(即,以靜電勢修飾的電子密度)可以透過電腦輔助發現該主體的客體,而無需了解主體的化學結構之外的主客體系統。

在這個過程中,研究人員建立了一個 Transformer 模型,可以透過訓練將 3D 體積分子描述子有效地轉換為 SMILES 表示,從而產生專業化學家可用的分子結構。

研究還發現,透過用靜電勢資料修飾分子的電子密度,可以將分子有效地表示為3D 體積,這兩個特徵足以透過使用自回歸採樣方案來優化3D 描述符之間的體積形狀和電荷相互作用來發現主體的客體分子。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊
圖示:使用Transformer 模型將電子密度轉換為SMILES 表示,然後透過梯度下降優化目標主體的客體。(來源:論文)

Transformer 模型完美地預測了其SMILES 表示,準確度為98.125%。單一token 的預測準確率為99.114%。Transformer 的解碼器也可以被隔離為純生成模型,如GPT。

工作流程概述

#

電腦輔助發現葫蘆脲 CB[6] 和金屬有機籠 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的實驗驗證客體需要一個雙層工作流程。首先,設計了一個電腦工作流程來為這兩個主體產生潛在客體分子的虛擬庫。然後建立了體外工作流程,其中包括由化學專家從這些虛擬庫中選擇最有希望的客體候選物進行實驗測試。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

圖示:透過電子密度體積表示發現新型客體分子。(來源:論文)

CB[6] 和準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 客體分子的電腦生成是透過上圖所示的工作流程實現的,該工作流程包括以下步驟:

(1)3D 電子密度體積訓練集源自公開的QM9 資料集中的分子。然後,透過使用變分自編碼器(VAE)對這個3D 電子密度體積訓練集進行建模,創建了一個

“分子生成器”,從而允許產生超出QM9 資料集派生的3D 電子密度體積。此 VAE 分子產生器的工作原理是將 3D 電子密度體積編碼到一維 (1D) 潛在空間中,然後透過從該 1D 潛在空間解碼來產生與分子相對應的 3D 電子密度體積。有趣的是,這種方法只能產生化學上合理的分子。

(2)VAE 分子生成器和梯度下降優化演算法用於為給定的主體分子生成客體分子庫(以 3D 電子密度體積的形式)。客體分子是透過最小化主體和客體電子密度之間的重疊,同時優化它們的靜電相互作用而產生的。

(3)由於人類操作員將3D 電子密度體積轉換為化學可解釋的結構可能具有挑戰性,因此訓練了Transformer 模型將這些體積轉換為SMILES 表示,以一種更容易被專業化學家理解的格式捕捉描述分子所需的所有必要資訊。在透過電腦模擬產生 CB[6] 和 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 的潛在客體分子後,建立了體外工作流程來對最有希望的候選分子進行實驗測試。

下面描述了所使用的實驗過程。

(1) 由於其電腦工作流程產生的 CB[6] 和  準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的客體由化學專家進行分類以進行實驗測試。有希望進行測試的客體是根據其與 CB[6] 或 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 的已知客體的結構相似性、專業化學家的直覺及其商業可用性來選擇的。

(2)採用直接准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊滴定法測定CB[6] 或 準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的親和力。值得注意的是,在電腦中產生的客體包含先前已知與主體(或密切相關)結合的分子和無視專家直覺的分子的混合物。

兩個常見主客體系統的實驗驗證

研究人員透過實驗驗證了其工作流程,為兩個兩個常見的主客體系統:葫蘆脲(CB[n])和金屬有機籠,成了文獻驗證和未報告的客體。

演算法為CB[6] 產生了9 個先前已知的客體。也確定了CB[6] 的7 個潛在新客體,化學專家認為值得進行實驗測試。CB[6] 對這些新客體的親和力透過在HCO2H/H2O 1:1v/v 中直接準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊滴定來評估。

在所有7 種情況下,都觀察到主客體系統的一組訊號,顯示該系統在NMR 時間尺度上進行快速交換。絡合後,客體分子的脂肪鏈共振向上場移動,顯示它們被封裝在CB[6] 腔內。發現准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊 與CB[6] 的締合常數遵循先前建立的趨勢,範圍從13.5 M^−1 到5,470 M^−1。

准确率 >98%,基於電子密度的GPT 用於化學研究,登Nature 子刊

圖示:CB[6] 的優化和先前已知的客體以及準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 的最佳化客體。(資料來源:論文)

對於準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 ,最佳化演算法僅產生未知的客體分子,四種潛在的未報告客體與[Pd214](BArF)4 之間的結合強度透過CD2Cl2 中的直接準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 滴定進行測試。在所有四種情況中,客體對[Pd214](BArF)4 的親和力與先前報告的CD2Cl2 中「小型中性客體」的親和力較低範圍一致(Ka 從44 M^-1 到529 M^−1)。

雖然研究重點是使用 SMILES 表示法來表示分子,但也測試了其他類似的格式,例如自引用嵌入字串 (SELFIES)。

儘管QM9 資料集包含大小完美的分子,可以成為CB[6] 等主體的客體,但該研究遇到的一個限制是金屬有機籠準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊 具有更大的空腔,需要更大的客體分子。在未來的研究中,將使用包含更大分子的資料集,例如 GDB-17 資料集。

之後,「我們的目標是將新配體的選擇嵌入到生成過程中,在自動化合成平台(例如Chemputer 機器人)上自主合成分子,關閉優化和測試之間的循環,創建一個網路-物理閉環系統。」

以上是準確率 >98%,基於電子密度的 GPT 用於化學研究,登 Nature 子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
最新問題
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板