蛋白質糖基化是糖基對蛋白質進行的一種翻譯後修飾,在細胞的多種生理和病理功能中起著重要作用。
糖蛋白質體學是在蛋白質體範圍內研究蛋白質糖基化,利用液相層析與串聯質譜(MS/MS) 聯用技術獲取糖基化位點、糖基化水平和糖結構的組合信息。
然而,由於結構決定離子的出現有限,目前糖蛋白質體學的資料庫搜尋方法通常難以確定聚醣結構。雖然光譜搜尋方法可以利用碎片強度來促進糖肽的結構鑑定,但是光譜庫建構的困難阻礙了它們的應用。
在最新的研究中,復旦大學的研究人員提出了 DeepGP,一種基於 Transformer 和圖神經網路的混合深度學習框架,用於預測糖肽的 MS/MS 光譜和保留時間(RT)。
兩個圖神經網路模組分別用於捕捉分支糖結構和預測醣離子強度。此外,也實施了預訓練策略以緩解糖蛋白質體學資料的不足。
研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」為題,於 2024 年 7 月 30 日發佈在《Nature Machine Intelligence》。
糖基化過程中,糖分子附著在特定胺基酸殘基的側鏈上,產生結構異質性,導致糖肽異構體的多樣性,增加了辨識難度。
液相層析串聯質譜(LC-MS/MS)是主要技術,透過碎片離子和分子量結合 RT 來鑑定糖肽。單靠質荷比(m/z)不足以確定糖結構,因此科學家採用光譜匹配方法來提高識別靈敏度。然而,建構糖肽 MS/MS 光譜庫成本高且複雜。
近年來,深度學習在勝肽 MS/MS 光譜預測方面取得進展。不過,目前糖肽組學資料集的數量相對較少,缺乏標準化的生成糖肽質譜資料的協議,這限制了用於深度學習模型訓練的合適資料的可用性。
為此,復旦大學的研究人員提出了 DeepGP,這是一種基於深度學習的混合端到端框架,用於完整的 N-糖肽 MS/MS 光譜和 RT 預測。深度學習框架由預先訓練的 Transformer 模組和兩個圖神經網路 (GNN) 模組組成。
DeepGP 模型
編碼糖肽特徵:
GCN 利用卷積操作來取得節點表示,並實施訊息傳遞協定來聚合相鄰節點的表示;GIN 在圖同構測試中表現優異;GAT 結合注意機制,使模型能夠專注於輸入的最相關部分。 實驗結果表明,GCN 在糖嵌入任務中表現最佳,而 GIN 在 B/Y 離子強度預測任務中表現優異,因此 GCN 和 GIN 被選用於相應分析。
預訓練策略緩解糖蛋白質組學資料不足
多個生物資料集上的測試
The researchers demonstrated DeepGP’s high accuracy in MS/MS and RT predictions using mouse and human sample datasets.
Comprehensive benchmarking of DeepGP on synthetic and biological datasets validates its effectiveness in distinguishing similar glycans. DeepGP combined with database searches improves glycopeptide detection sensitivity.
Paper link:
https://www.nature.com/articles/s42256-024-00875-x
以上是糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!