介紹 MolE,一種基於 Transformer 的分子圖學習模型。 MolE 透過提供原子標識符和圖連接作為輸入標記來直接使用分子圖。原子標識符是透過將不同的原子屬性散列成單一整數來計算的,並且圖連接性以拓撲距離矩陣的形式給出。 MolE 使用 Transformer 作為其基礎架構,該架構之前也已應用於圖。 Transformer 的表現很大程度上歸功於自註意力機制的廣泛使用。在標準轉換器中,輸入標記嵌入到查詢、鍵和值 (Q,K,Vin {R}^{Ntimes d}),用於計算自註意力為:
MolE 是專為分子圖設計的 Transformer 模型。它透過分別提供原子標識符和圖連接作為輸入標記和相對位置資訊來直接處理圖。原子標識符是透過將不同的原子屬性散列成單一整數來計算的。特別是,這個哈希包含以下資訊:
- 相鄰重原子的數量,
- 相鄰氫原子的數量,
- 化合價減去所連接的氫的數量,
- 原子電荷,
-原子質量,
- 附加債券類型,
- 和戒指會員資格。
原子標識符(也稱為半徑 0 的原子環境)是使用 RDKit 中實現的 Morgan 演算法計算的。
除了標記之外,MolE 還以圖連接資訊作為輸入,這是一個重要的歸納偏差,因為它編碼了分子圖中原子的相對位置。在這種情況下,圖的連通性以拓撲距離矩陣 d 的形式給出,其中 dij 對應於將原子 i 與原子 j 分開的鍵上的最短路徑的長度。
MolE 使用 Transformer 作為其基礎架構,之前也已應用於圖。 Transformer 的表現很大程度上歸功於自註意力機制的廣泛使用。在標準轉換器中,輸入標記嵌入到查詢、鍵和值 (Q,K,Vin {R}^{Ntimes d}),用於計算自註意力:
其中({H}_{0}in {R}^{Ntimes d})是自註意力後的輸出隱藏向量,(d)是隱藏空間的維度。
為了透過變壓器的每一層顯式地攜帶位置訊息,MolE 使用 DeBERTa 的解纏結自註意力:
其中({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) 是上下文查詢、包含令牌資訊的鍵和值(用於標準自註意力),({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})是位置編碼相對值的查詢與鍵(i{{{rm{th}}}}) 原子相對於(j{{{rm{th}}}}) 原子的位置。使用解纏結注意力使得 MolE 相對於輸入原子的順序保持不變。
如前所述,自監督預訓練可以有效地將資訊從大型無標籤資料集轉移到帶有標籤的較小資料集。在這裡,我們提出了一個兩步驟預訓練策略。第一步是採用自我監督的方法來學習化學結構表示。為此,我們使用類似BERT 的方法,其中每個原子以15% 的機率被隨機屏蔽,其中80% 的選定標記被掩碼標記替換,10% 被詞彙表中的隨機標記替換,並且10%沒有改變。與 BERT 不同,預測任務不是預測被屏蔽 token 的身份,而是預測半徑為 2 的相應原子環境(或功能原子環境),即與被屏蔽原子相隔兩個或更少鍵的所有原子。重要的是要記住,我們對輸入(半徑 0)和標籤(半徑 2)使用了不同的標記化策略,並且輸入標記不包含相鄰原子的重疊數據,以避免資訊外洩。這激勵模型聚合來自鄰近原子的訊息,同時學習局部分子特徵。 MolE 透過分類任務進行學習,其中半徑為2 的每個原子環境都有一個預定義的標籤,這與上下文預測方法相反,上下文預測方法的任務是將半徑為4 的原子環境的嵌入與上下文原子的嵌入(即超出範圍的周圍原子)相匹配。半徑 4) 透過負採樣。第二步使用帶有大型標記資料集的圖級監督預訓練。正如 Hu 等人所提出的,結合節點級和圖級預訓練有助於學習局部和全局特徵,從而提高最終的預測性能。有關預訓練步驟的更多詳細信息,請參閱“方法”部分。
MolE 使用來自ZINC 和ExCAPE-DB 的約8.42 億分子的超大型資料庫進行預訓練,採用自監督方案(帶有輔助損失),然後使用約456K 分子進行監督預訓練(參見方法部分更多細節)。我們透過在一組下游任務上微調 MolE 來評估分子嵌入的品質。在本例中,我們使用治療數據共享 (TDC) 基準中包含的一組 22 個 ADMET 任務。該基準由資料集上的9 個回歸任務和13 個二元分類任務組成,資料集範圍從數百個(例如,具有475 種化合物的DILI)到數千個化合物(例如約13,000 種化合物的CYP抑制任務)。使用此基準測試的優點是
以上是MolE:分子圖學習的 Transformer 模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!