人工智慧(AI)一直在迅速發展,但對人類來說,強大的模型卻是個「黑盒子」。
我們不了解模型內部的運作原理,不清楚它得出結論的過程。
然而最近,波昂大學(University of Bonn)的化學資訊學專家Jürgen Bajorath教授和他的團隊取得了重大突破。
他們設計了一種技術,揭示了藥物研究中使用的某些人工智慧系統的運作機制。
研究顯示,人工智慧模型主要透過回憶現有數據來預測藥物有效性,而非學習特定化學交互作用。
-也就是說,AI預測純靠拼湊記憶,機器學習其實並沒有學習!
他們的研究結果最近發表在《自然機器智能》(Nature Machine Intelligence)雜誌上。
論文網址:https://www.nature.com/articles/s42256-023-00756-9
在醫藥領域,研究人員正在狂熱地尋找有效的活性物質來對抗疾病-哪種藥物分子最有效?
通常,這些有效的分子(化合物)會對接在蛋白質上,蛋白質作為觸發特定生理作用鏈的酵素或受體。
在特殊情況下,某些分子也負責阻斷體內的不良反應,例如過度的發炎反應。
可能的化合物數量龐大,尋找有效的化合物就像大海撈針一樣。
因此,研究人員首先使用AI模型來預測,哪些分子最能與各自的目標蛋白對接並牢固結合。然後在實驗研究中,更詳細地進一步篩選這些候選藥物。
自人工智慧發展以來,藥物發現研究也越來越多地採用AI相關的技術。
比如圖神經網路(GNN),適用於預測某種分子與目標蛋白結合的強度。
圖由表示物件的節點和表示節點之間關係的邊組成。在蛋白質與配體複合物的圖表示中,圖的邊連接蛋白質或配體節點,表示物質的結構,或蛋白質和配體之間的相互作用。
GNN模型使用從X射線結構中提取的蛋白質配體相互作用圖,來預測配體親和力。
Jürgen Bajorath教授表示,GNN模型對我們來說就像一個黑盒子,我們無法得知它如何得出自己的預測。
Jürgen Bajorath教授任職於波昂大學LIMES研究所、波昂-亞琛國際資訊科技中心(Bonn-Aachen International Center for Information Technology)和拉瑪機器學習與人工智慧研究所(Lamarr Institute for Machine Learning and Artificial Intelligence)。
來自波昂大學化學資訊學的研究人員,與羅馬Sapienza大學的同事一起,詳細分析了圖神經網路是否真的學習到了蛋白質與配體的相互作用。
研究人員使用他們專門開發的「EdgeSHAPer」方法分析了總共六種不同的GNN架構。
EdgeSHAPer程式可以判斷GNN是否學習了化合物和蛋白質之間最重要的相互作用,或者是透過其他的方式來得出預測。
科學家們使用從蛋白質配體複合物結構中提取的圖訓練了六個GNN,——化合物的作用方式以及與目標蛋白的結合強度已知。
然後,在其他複合物上測試經過訓練的GNN,並使用EdgeSHAPer分析GNN如何產生預測。
「如果GNN按照預期行事,它們需要學習化合物和目標蛋白之間的相互作用,並且透過優先考慮特定的相互作用來給出預測」。
然而,根據研究小組的分析,六個GNN基本上都沒有做到這一點。大多數GNN只學會了一些蛋白質與藥物的相互作用,主要集中在配體上。
上圖展示了6個GNN中的實驗結果,色標條表示用EdgeSHAPer確定的每個預測的前25個邊中蛋白質、配體和相互作用所佔的平均比例。
我們可以看到,代表綠色的相互作用本該是模型需要學到的,然而在整個實驗中所佔的比例都不高,而代表配體的橙色條佔了最大的比例。
為了預測分子與目標蛋白的結合強度,模型主要「記住」了它們在訓練過程中遇到的化學相似分子及其結合數據,而不管目標蛋白如何。這些被記住的化學相似性基本上決定了預測。
這讓人想起「聰明的漢斯效應」(Clever Hans effect),--就像那匹看起來會數數的馬,實際上是根據同伴面部表情和手勢的細微差別,來推斷出預期的結果。
這或許意味著,GNN所謂的「學習能力」可能是站不住腳的,模型的預測在很大程度上被高估了,因為可以使用化學知識和更簡單的方法進行同等品質的預測。
不過,研究中也發現了另一個現象:當測試化合物的效力增加時,模型傾向於學習到更多的相互作用。
也許透過修改表徵和訓練技術,這些GNN還能朝著理想的方向進一步改進。不過,對於可以根據分子圖學習物理量的假設,一般來說應該要謹慎看待。
「人工智慧不是黑魔法。」
#以上是AI未經學習!最新研究揭示了解讀人工智慧黑盒的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!