首頁 網路3.0 MolE:分子圖學習的 Transformer 模型

MolE:分子圖學習的 Transformer 模型

Nov 12, 2024 pm 09:22 PM
Molecular graphs foundation model disentangled attention

介紹 MolE,一種基於 Transformer 的分子圖學習模型。 MolE 透過提供原子標識符和圖連接作為輸入標記來直接使用分子圖。原子標識符是透過將不同的原子屬性散列成單一整數來計算的,並且圖連接性以拓撲距離矩陣的形式給出。 MolE 使用 Transformer 作為其基礎架構,該架構之前也已應用於圖。 Transformer 的表現很大程度上歸功於自註意力機制的廣泛使用。在標準轉換器中,輸入標記嵌入到查詢、鍵和值 (Q,K,Vin {R}^{Ntimes d}),用於計算自註意力為:

MolE:分子圖學習的 Transformer 模型

MolE 是專為分子圖設計的 Transformer 模型。它透過分別提供原子標識符和圖連接作為輸入標記和相對位置資訊來直接處理圖。原子標識符是透過將不同的原子屬性散列成單一整數來計算的。特別是,這個哈希包含以下資訊:

- 相鄰重原子的數量,

- 相鄰氫原子的數量,

- 化合價減去所連接的氫的數量,

- 原子電荷,

-原子質量,

- 附加債券類型,

- 和戒指會員資格。

原子標識符(也稱為半徑 0 的原子環境)是使用 RDKit 中實現的 Morgan 演算法計算的。

除了標記之外,MolE 還以圖連接資訊作為輸入,這是一個重要的歸納偏差,因為它編碼了分子圖中原子的相對位置。在這種情況下,圖的連通性以拓撲距離矩陣 d 的形式給出,其中 dij 對應於將原子 i 與原子 j 分開的鍵上的最短路徑的長度。

MolE 使用 Transformer 作為其基礎架構,之前也已應用於圖。 Transformer 的表現很大程度上歸功於自註意力機制的廣泛使用。在標準轉換器中,輸入標記嵌入到查詢、鍵和值 (Q,K,Vin {R}^{Ntimes d}),用於計算自註意力:

其中({H}_{0}in {R}^{Ntimes d})是自註意力後的輸出隱藏向量,(d)是隱藏空間的維度。

為了透過變壓器的每一層顯式地攜帶位置訊息,MolE 使用 DeBERTa 的解纏結自註意力:

其中({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) 是上下文查詢、包含令牌資訊的鍵和值(用於標準自註意力),({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})是位置編碼相對值的查詢與鍵(i{{{rm{th}}}}) 原子相對於(j{{{rm{th}}}}) 原子的位置。使用解纏結注意力使得 MolE 相對於輸入原子的順序保持不變。

如前所述,自監督預訓練可以有效地將資訊從大型無標籤資料集轉移到帶有標籤的較小資料集。在這裡,我們提出了一個兩步驟預訓練策略。第一步是採用自我監督的方法來學習化學結構表示。為此,我們使用類似BERT 的方法,其中每個原子以15% 的機率被隨機屏蔽,其中80% 的選定標記被掩碼標記替換,10% 被詞彙表中的隨機標記替換,並且10%沒有改變。與 BERT 不同,預測任務不是預測被屏蔽 token 的身份,而是預測半徑為 2 的相應原子環境(或功能原子環境),即與被屏蔽原子相隔兩個或更少鍵的所有原子。重要的是要記住,我們對輸入(半徑 0)和標籤(半徑 2)使用了不同的標記化策略,並且輸入標記不包含相鄰原子的重疊數據,以避免資訊外洩。這激勵模型聚合來自鄰近原子的訊息,同時學習局部分子特徵。 MolE 透過分類任務進行學習,其中半徑為2 的每個原子環境都有一個預定義的標籤,這與上下文預測方法相反,上下文預測方法的任務是將半徑為4 的原子環境的嵌入與上下文原子的嵌入(即超出範圍的周圍原子)相匹配。半徑 4) 透過負採樣。第二步使用帶有大型標記資料集的圖級監督預訓練。正如 Hu 等人所提出的,結合節點級和圖級預訓練有助於學習局部和全局特徵,從而提高最終的預測性能。有關預訓練步驟的更多詳細信息,請參閱“方法”部分。

MolE 使用來自ZINC 和ExCAPE-DB 的約8.42 億分子的超大型資料庫進行預訓練,採用自監督方案(帶有輔助損失),然後使用約456K 分子進行監督預訓練(參見方法部分更多細節)。我們透過在一組下游任務上微調 MolE 來評估分子嵌入的品質。在本例中,我們使用治療數據共享 (TDC) 基準中包含的一組 22 個 ADMET 任務。該基準由資料集上的9 個回歸任務和13 個二元分類任務組成,資料集範圍從數百個(例如,具有475 種化合物的DILI)到數千個化合物(例如約13,000 種化合物的CYP抑制任務)。使用此基準測試的優點是

以上是MolE:分子圖學習的 Transformer 模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1670
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1273
29
C# 教程
1256
24
OM Mantra加密貨幣墜毀90%,據稱團隊傾倒了90%的令牌供應 OM Mantra加密貨幣墜毀90%,據稱團隊傾倒了90%的令牌供應 Apr 14, 2025 am 11:26 AM

在對投資者的毀滅性打擊中,OM咒語加密貨幣在過去24小時內倒塌了約90%,價格下降到0.58美元。

TrollerCat($ TCAT)在模因硬幣市場中脫穎而出 TrollerCat($ TCAT)在模因硬幣市場中脫穎而出 Apr 14, 2025 am 10:24 AM

您是否注意到了加密貨幣世界中模因硬幣的迅速崛起?最初的在線笑話很快發展成為有利可圖的投資機會

Metaplanet將其比特幣國庫券擴大到另外319 BTC Metaplanet將其比特幣國庫券擴大到另外319 BTC Apr 15, 2025 am 11:20 AM

在今天早些時候的公告中,日本公司Metaplanet透露已收購了另外319個比特幣(BTC),將其總公司持有量推高了4,500 BTC。

Bitwise宣佈在倫敦證券交易所(LSE)上列出了其四個加密ETP Bitwise宣佈在倫敦證券交易所(LSE)上列出了其四個加密ETP Apr 18, 2025 am 11:24 AM

領先的數字資產經理Bitwise已宣佈在倫敦證券交易所(LSE)上列出了其四個加密交易所交易產品(ETP)。

比特幣(BTC)分析師釘上了2021年市場崩潰 比特幣(BTC)分析師釘上了2021年市場崩潰 Apr 14, 2025 am 11:20 AM

偽分析師Dave The Wave在社交媒體平台上告訴他的149,300個關注者X,比特幣看起來正處於印刷逆向頭和露肩模式的早期階段

BlockDag用2380%的預售ROI削減了噪音 BlockDag用2380%的預售ROI削減了噪音 Apr 14, 2025 am 11:24 AM

價格波動和政策壓力在加密貨幣中並不新鮮,但是時不時地,一個項目削減了數字太大而忽略的噪音。

世界各地的中央銀行正在加大購買黃金 世界各地的中央銀行正在加大購買黃金 Apr 15, 2025 am 11:00 AM

根據Kobeissi信的一份關於X的報告,提到了IMS IFS和全球黃金委員會的數據,各國在2月累積了24噸黃金