NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型
作者 | 劉聖超
編輯 | 凱霞
從2021年開始,大語言和多模態的結合席捲了機器學習研究界。
隨著大模型和多模態應用的發展,我們是否可以將這些技術應用於藥物發現?而且,這些自然語言的文字描述是否能為這個具有挑戰性的問題帶來新的視野呢?答案是肯定的,我們對此持樂觀態度
近日,加拿大蒙特婁學習演算法研究院(Mila)、NVIDIA Research、伊利諾大學厄巴納-香檳分校(UIUC)、普林斯頓大學和加州理工學院的研究團隊,透過對比學習策略共同學習分子的化學結構和文本描述,提出了多模態分子結構-文本模型MoleculeSTM。
研究以為題《Multi-modal molecule structure–text model for text-based retrieval and editing》為題,於 2023 年 12 月 18 日發表在《Nature Machine Intelligence》上。
論文連結:https://www.nature.com/articles/s42256-023-00759-6需要重寫
#其中劉聖超博士為第一作者,NVIDIA Research 的Anima Anandkumar 教授為通訊作者。聶維梨、王程鵬、盧家睿、喬卓然、劉玲、唐建、蕭超瑋為共同作者。
該計畫是劉聖超博士在2022年3月加入 NVIDIA Research 之後,在聶維梨老師、唐建老師、肖超瑋老師和 Anima Anandkumar 老師的指導下進行的。
劉聖超博士表示:「我們的動機是對LLM和藥物發現進行初步的探索,最後提出了MoleculeSTM。」
用於對接的文本是為了引導分子編輯而設計的
MoleculeSTM的核心思路非常簡單直接,即分子的描述可分為內部化學結構和外部功能描述兩大類。而我們在這裡採用了對比預訓練的方法,將這兩種類型的信息進行對齊和聯繫。具體示意如下圖所示
圖示:MoleculeSTM的流程圖。
而MoleculeSTM的這個alignment有一個非常好的性質:當有一些任務在化學空間比較難以解決的時候,我們可以將其transfer到自然語言(natural language)空間。而且自然語言的任務會相對更容易解決,由於它的特性。並且基於此我們設計了種類豐富的下游任務來驗證其有效性。下面我們圍繞著幾個insight詳細討論。
自然語言和大語言模型的特性
在MoleculeSTM中,我們首次提出了一個問題。我們利用了自然語言的開放詞彙和組合性特徵
- Open vocabulary的意思是我們可以把現在人類知識都用自然語言表示,所以對於將來新出現的知識,也能用現有的語言進行歸納和總結。例如出現某種新的蛋白質,我們希望可以對它的功能進行自然語言描述。
- Compositionality的意思是在自然語言中,一個複雜的概念可以用幾個簡單的概念來進行聯合表達。這個對於類似多屬性編輯的任務有很大的幫助:在化學空間要編輯分子同時符合多個特性非常困難,但是我們可以非常簡單地用自然語言表達出多種特性。
在我們最近的工作中ChatDrug (https://arxiv.org/abs/2305.18090),我們探討了自然語言和大型語言模型之間的對話特性,對此感興趣的朋友可以去看看
特性引出的任務設計指的是根據產品或系統的特性來規劃和排程任務的設計
對於現有的language- image任務來說,它們可以被視為與藝術相關的任務,例如生成圖片或文字。也就是說,它們的結果是多樣且不確定的。然而,科學發現是科學問題,通常具有比較明確的結果,例如產生具有特定功能的小分子。這在任務設計上帶來了更大的挑戰
在MoleculeSTM中 (Appendix B),我們提出了兩個準則:
- 首先我們考慮的任務是能夠進行計算模擬得到結果。將來會考慮能夠有wet-lab驗證的結果,但這並不在目前這個工作的考量範疇內。
- 其次我們只考慮有著模糊性結果的問題。具體例子例如讓某個分子的水溶性或穿透性變強。而有一些問題有明確結果,例如在分子的某個位置加入某一個官能基,我們認為這類任務對於藥物、化學專家來說更簡單直接。所以它可以將來當作某一個proof-of-concept任務,但是並不會成為主要的任務目標。
由此我們設計了三個大類任務:
- Zero-shot 結構文本檢索;
- Zero-shot 基於文本的分子編輯;
- 分子性質預測。
我們會在接下來的部分重點介紹第二個任務
分子編輯的定性結果重新表述如下:
##這個任務就是同時輸入一個分子和自然語言描述(例如額外的屬性),然後希望能夠輸出複合語言文字所描述的新的分子。這就是文字編輯優化(text-guided lead optimization)。 具體的方法就是利用已經訓練好的分子生成模型和我們預先訓練好的MoleculeSTM,透過學習二者的潛在空間(latent space)的alignment,從而進行latent space interpolation,再經過解碼生成目標分子。流程示意圖如下。- 單一屬性編輯:對單一屬性進行編輯,例如水溶性、穿透性、氫鍵施主與受主個數。
- 複合屬性編輯:同時對多個屬性進行編輯,例如水溶性和氫鍵施主個數。
- 藥物相似性編輯:(Appendix D.5)是讓輸入分子與目標分子藥物長得更接近。
- 專利藥物的鄰居搜尋:對於已經申請到專利的藥物,往往會把中間過程的藥物一起報道。我們這裡就是那中間藥物配合自然語言描述,看是否能夠產生最終的目標藥物。
- binding affinity編輯:我們選擇幾個ChEMBL assay作為靶點,目標是讓輸入分子和標靶有更高的結合親和力。
以上是NVIDIA、Mila、Caltech共同發表LLM結合藥物發現的多模態分子結構-文本模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

在現代製造業中,精準的缺陷檢測不僅是確保產品品質的關鍵,更是提升生產效率的核心。然而,現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創新地開發了「DefectSpectrum」資料集,為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示,相較於其他工業資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發出來,例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

對AI來說,奧數不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題,涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規模最大、最負

編輯|KX時至今日,晶體學所測定的結構細節和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發了一種解決晶體相問題的深度學習方法PhAI,利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡,可以產生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結構解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數據的10%到20%,而傳統的從頭算方

編輯|ScienceAI基於有限的臨床數據,數百種醫療演算法已被批准。科學家們正在討論由誰來測試這些工具,以及如何最好地進行測試。 DevinSingh在急診室目睹了一名兒科患者因長時間等待救治而心臟驟停,這促使他探索AI在縮短等待時間中的應用。 Singh利用了SickKids急診室的分診數據,與同事們建立了一系列AI模型,用於提供潛在診斷和推薦測試。一項研究表明,這些模型可以加快22.3%的就診速度,將每位需要進行醫學檢查的患者的結果處理速度加快近3小時。然而,人工智慧演算法在研究中的成功只是驗證此

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下,Transformer作為AI大模型主流架構的局面是否會撼動?為何探索基於MoE(專家混合)架構的大模型成為業界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

編輯|紫羅蘭AI在簡化藥物發現方面的應用正在爆炸式增長。從數十億種候選分子中篩選出可能具有開發新藥所需特性的分子。需要考慮的變數太多了,從材料價格到出錯的風險,即使科學家使用AI,權衡合成最佳候選分子的成本也不是一件容易的事。在此,MIT研究人員開發了一個定量決策演算法架構SPARROW,來自動識別最佳分子候選物,從而最大限度地降低合成成本,同時最大限度地提高候選物具有所需特性的可能性。該演算法還確定了合成這些分子所需的材料和實驗步驟。 SPARROW考慮了一次合成一批分子的成本,因為多個候選分子通常可
