編輯| 枯葉蝶
大型語言模型大大增強了科學家理解生物學和化學的能力,但基於結構的藥物發現、量子化學和結構生物學的可靠方法仍然很少。大型語言模型迫切需要精確的生物分子-配體交互作用資料集。
為了解決這個問題,德國亥姆霍茲慕尼黑研究中心生物學所和慕尼黑工業大學的研究人員,提出了 MISATO。這是一個資料集,它結合了小分子的量子力學(QM)特性,還有約 20,000 個實驗蛋白質-配體複合物的相關分子動力學(MD)模擬,以及對實驗數據的廣泛驗證。
從現有的實驗結構出發,研究人員利用半經驗量子力學系統地完善了這些結構。其中包括大量蛋白質-配體複合物在純水中的分子動力學模擬,累積時間超過170微秒。
該團隊提供了機器學習(ML)基線模型的範例,證明透過使用該資料集可以提高準確性。為機器學習專家提供了一個簡單的切入點,以實現下一代藥物發現人工智慧模型。
研究以「MISATO: machine learning dataset of protein–ligand complexes for structure-based drug discovery」為題,於2024 年5 月10 日發佈在《Nature Computational Science》。
近年來,AI預測技術在科學領域引發了革命,如AlphaFold能精準預測蛋白質結構。儘管結構導向藥物發現仍是巨大挑戰,AI在此領域的應用尚淺。目前方法面臨精確度、計算成本及實驗依賴度等難題,多集中於簡單解決方案與一維資料處理。忽視了三維蛋白-配體複合體的複雜性。
雖然有多種資料庫,但因資料量限制和熱力學資訊缺失尚未有AI模型能顯示推進藥物發現。與AlphaFold在蛋白質結構預測領域的成就不同,AI模型也受限於忽略動態性、化學複雜性等問題,影響了其在生物分子分析和量子化學的潛力。
在這裡,德國亥姆霍茲慕尼黑研究中心結構生物學所和慕尼黑工業大學的研究人員,提出了一個基於實驗蛋白質-配體結構的蛋白質-配體結構數據庫,MISATO(Molecular Interactions Are Structurally Optimized)。
研究人員表明,該資料庫有助於更好地訓練與藥物發現相關領域及其他領域的模型。這包括量子化學、普通結構生物學和生物資訊學。
該團隊提供了基於量子化學的結構管理和細化,包括配體幾何形狀的正則化。研究人員用缺失的動態和化學資訊來擴充這個資料庫,包括時間尺度上的 MD,允許檢測某些系統的瞬態和神秘狀態。後者對於成功的藥物設計非常重要。
因此,研究人員用最大數量的物理參數補充實驗數據。這減輕了人工智慧模型隱性學習所有這些資訊的負擔,從而可以專注於主要學習任務。 MISATO 資料庫提供了一種使用者友好的格式,可以直接匯入機器學習程式碼。
該團隊還提供了各種預處理腳本來過濾和視覺化資料集。而且,提供了範例 AI 基線模型,用於計算量子化學性質(化學硬度和電子親和力)、結合親和力計算以及預測蛋白質靈活性或誘導擬合特徵,從而使數據可以簡化採用。並且,QM、MD 和 AI 模型在實驗數據上得到了廣泛的驗證。
研究人員希望將 MISATO 轉變為一個有益的社區項目,造福整個藥物發現領域。
論文連結:https://www.nature.com/articles/s43588-024-00627-2
#以上是結合量子特徵、2萬個分子動力學模擬,新蛋白-配體複合物ML資料集,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!