糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊-人工智慧-PHP中文網

糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

發布： 2024-08-06 08:31:22

原創

542 人瀏覽過

糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊

編輯 | 蘿蔔皮

蛋白質糖基化是糖基對蛋白質進行的一種翻譯後修飾，在細胞的多種生理和病理功能中起著重要作用。

糖蛋白質體學是在蛋白質體範圍內研究蛋白質糖基化，利用液相層析與串聯質譜(MS/MS) 聯用技術獲取糖基化位點、糖基化水平和糖結構的組合信息。

然而，由於結構決定離子的出現有限，目前糖蛋白質體學的資料庫搜尋方法通常難以確定聚醣結構。雖然光譜搜尋方法可以利用碎片強度來促進糖肽的結構鑑定，但是光譜庫建構的困難阻礙了它們的應用。

在最新的研究中，復旦大學的研究人員提出了 DeepGP，一種基於 Transformer 和圖神經網路的混合深度學習框架，用於預測糖肽的 MS/MS 光譜和保留時間（RT）。

兩個圖神經網路模組分別用於捕捉分支糖結構和預測醣離子強度。此外，也實施了預訓練策略以緩解糖蛋白質體學資料的不足。

研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」為題，於 2024 年 7 月 30 日發佈在《Nature Machine Intelligence》。

糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊

蛋白質翻譯後修飾（PTMs）顯著增加了蛋白質組的複雜性。糖基化作為最重要的 PTMs 之一，影響超過 50% 的哺乳動物蛋白質，在許多生理和病理過程中起關鍵作用。

糖基化過程中，糖分子附著在特定胺基酸殘基的側鏈上，產生結構異質性，導致糖肽異構體的多樣性，增加了辨識難度。

液相層析串聯質譜（LC-MS/MS）是主要技術，透過碎片離子和分子量結合 RT 來鑑定糖肽。單靠質荷比（m/z）不足以確定糖結構，因此科學家採用光譜匹配方法來提高識別靈敏度。然而，建構糖肽 MS/MS 光譜庫成本高且複雜。

近年來，深度學習在勝肽 MS/MS 光譜預測方面取得進展。不過，目前糖肽組學資料集的數量相對較少，缺乏標準化的生成糖肽質譜資料的協議，這限制了用於深度學習模型訓練的合適資料的可用性。

為此，復旦大學的研究人員提出了 DeepGP，這是一種基於深度學習的混合端到端框架，用於完整的 N-糖肽 MS/MS 光譜和 RT 預測。深度學習框架由預先訓練的 Transformer 模組和兩個圖神經網路 (GNN) 模組組成。

糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊

圖示：模型架構和糖肽 MS/MS 光譜預測。

DeepGP 模型

接受糖肽作為輸入
編碼糖肽特徵：
1. 糖結構
4. 糖結構透過GNN 嵌入，將糖肽轉化為圖：
5. 節點：單醣
圖示：基於DeepGP 在合成資料集上對相似聚醣組成進行區分。（資料來源：論文）
- 研究人員評估了三種GNN 架構，包括圖卷積網絡(GCN)、圖同構網絡(GIN) 和圖注意網絡(GAT)，用於糖嵌入和B/Y 離子強度預測。
  GCN 利用卷積操作來取得節點表示，並實施訊息傳遞協定來聚合相鄰節點的表示；GIN 在圖同構測試中表現優異；GAT 結合注意機制，使模型能夠專注於輸入的最相關部分。實驗結果表明，GCN 在糖嵌入任務中表現最佳，而 GIN 在 B/Y 離子強度預測任務中表現優異，因此 GCN 和 GIN 被選用於相應分析。
圖示：DeepGP 在 MS/MS 預測的表現。（資料來源：論文）

預訓練策略緩解糖蛋白質組學資料不足
DeepGP 使用大量無標註的自然語言資料進行預訓練，類似於 BERT 等模型。預訓練使模型在正式訓練前具備知識基礎，進而增強應對小規模標註資料的效能。

多個生物資料集上的測試

The researchers demonstrated DeepGP’s high accuracy in MS/MS and RT predictions using mouse and human sample datasets.

糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊

Illustration: DeepGP combined with pGlyco3 (a glycopeptide search method) for glycopeptide identification. (Source: Paper)

Comprehensive benchmarking of DeepGP on synthetic and biological datasets validates its effectiveness in distinguishing similar glycans. DeepGP combined with database searches improves glycopeptide detection sensitivity.

Paper link:
https://www.nature.com/articles/s42256-024-00875-x

以上是糖蛋白組學新方法，復旦開發基於Transformer和GNN的混合端對端框架，登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章！