OpenAI 的GPT 和Meta AI 的Llama 等大型語言模型(LLM)因其在化學資訊學領域的潛力而日益受到認可,特別是在理解簡化分子輸入行輸入系統( SMILES)方面。這些 LLM 也能夠將 SMILES 字串解碼為向量表示。
加拿大溫莎大學(University of Windsor)的研究人員比較了GPT 和Llama 與SMILES 上的預訓練模型在下游任務中嵌入SMILES 字符串的性能,重點關注兩個關鍵應用:分子特性預測和藥物-藥物相互作用預測。
研究以「Can large language models understand molecules?」為題,於 2024 年 6 月 25 日發佈在《BMC Bioinformatics》。
1. 分子嵌入在藥物發現中的應用分子嵌入是藥物發現中至關重要的任務,廣泛應用於分子性質預測、藥物-靶標相互作用(DTI) 預測和藥物-藥物相互作用(DDI) 預測等相關任務中。
2. 分子嵌入技術
分子嵌入技術可從編碼分子結構連接資訊的分子圖或其結構的線註釋中學習特徵,例如流行的 SMILES 表示。
3. SMILES 字串中的分子嵌入
透過 SMILES 字串進行分子嵌入與語言建模的進步同步發展,從靜態字嵌入到情境化的預訓練模型。這些嵌入技術旨在以緊湊的數值表示形式捕捉相關結構和化學資訊。
圖示:藥物化學表示。 (資料來源:論文)基本假設認為結構相似的分子行為方式相似。這使得機器學習演算法能夠處理和分析分子結構,以進行屬性預測和藥物發現任務。
隨著 LLM 的突破,一個突出的問題是 LLM 是否能夠理解分子並根據分子數據進行推論?
更具體地說,LLM 能否產生高品質的語意表示?
溫莎大學的 Shaghayegh Sadeghi、Alioune Ngom Jianguo Lu 等人進一步探討了這些模型有效嵌入 SMILES 的能力。目前,這項能力尚未充分探索,部分原因可能是 API 呼叫的成本。
研究人員發現,使用 Llama 產生的 SMILES 嵌入在分子特性和 DDI 預測任務中的表現都優於 GPT 產生的 SMILES 嵌入。
圖示:分類和迴歸任務的結果。 (資料來源:論文)以上是Llama分子嵌入優於GPT,LLM能理解分子嗎?這一局Meta贏了OpenAI的詳細內容。更多資訊請關注PHP中文網其他相關文章!