蛋白質糖基化是糖基對蛋白質進行的一種翻譯後修飾,在細胞的多種生理和病理功能中起著重要作用。
糖蛋白質體學是在蛋白質體範圍內研究蛋白質糖基化,利用液相層析與串聯質譜(MS/MS) 聯用技術獲取糖基化位點、糖基化水平和糖結構的組合信息。
然而,由於結構決定離子的出現有限,目前糖蛋白質體學的資料庫搜尋方法通常難以確定聚醣結構。雖然光譜搜尋方法可以利用碎片強度來促進糖肽的結構鑑定,但是光譜庫建構的困難阻礙了它們的應用。
在最新的研究中,復旦大學的研究人員提出了 DeepGP,一種基於 Transformer 和圖神經網路的混合深度學習框架,用於預測糖肽的 MS/MS 光譜和保留時間(RT)。
兩個圖神經網路模組分別用於捕捉分支糖結構和預測醣離子強度。此外,也實施了預訓練策略以緩解糖蛋白質體學資料的不足。
研究以「Deep learning prediction of glycopeptide tandem mass spectra powers glycoproteomics」為題,於 2024 年 7 月 30 日發佈在《Nature Machine Intelligence》。
蛋白質翻譯後修飾(PTMs)顯著增加了蛋白質組的複雜性。糖基化作為最重要的 PTMs 之一,影響超過 50% 的哺乳動物蛋白質,在許多生理和病理過程中起關鍵作用。糖基化過程中,糖分子附著在特定胺基酸殘基的側鏈上,產生結構異質性,導致糖肽異構體的多樣性,增加了辨識難度。
液相層析串聯質譜(LC-MS/MS)是主要技術,透過碎片離子和分子量結合 RT 來鑑定糖肽。單靠質荷比(m/z)不足以確定糖結構,因此科學家採用光譜匹配方法來提高識別靈敏度。然而,建構糖肽 MS/MS 光譜庫成本高且複雜。
近年來,深度學習在勝肽 MS/MS 光譜預測方面取得進展。不過,目前糖肽組學資料集的數量相對較少,缺乏標準化的生成糖肽質譜資料的協議,這限制了用於深度學習模型訓練的合適資料的可用性。
為此,復旦大學的研究人員提出了 DeepGP,這是一種基於深度學習的混合端到端框架,用於完整的 N-糖肽 MS/MS 光譜和 RT 預測。深度學習框架由預先訓練的 Transformer 模組和兩個圖神經網路 (GNN) 模組組成。
圖示:模型架構和糖肽 MS/MS 光譜預測。DeepGP 模型
編碼糖肽特徵:
GCN 利用卷積操作來取得節點表示,並實施訊息傳遞協定來聚合相鄰節點的表示;GIN 在圖同構測試中表現優異;GAT 結合注意機制,使模型能夠專注於輸入的最相關部分。 實驗結果表明,GCN 在糖嵌入任務中表現最佳,而 GIN 在 B/Y 離子強度預測任務中表現優異,因此 GCN 和 GIN 被選用於相應分析。
預訓練策略緩解糖蛋白質組學資料不足
DeepGP 使用大量無標註的自然語言資料進行預訓練,類似於 BERT 等模型。預訓練使模型在正式訓練前具備知識基礎,進而增強應對小規模標註資料的效能。多個生物資料集上的測試
The researchers demonstrated DeepGP’s high accuracy in MS/MS and RT predictions using mouse and human sample datasets.
Illustration: DeepGP combined with pGlyco3 (a glycopeptide search method) for glycopeptide identification. (Source: Paper)Comprehensive benchmarking of DeepGP on synthetic and biological datasets validates its effectiveness in distinguishing similar glycans. DeepGP combined with database searches improves glycopeptide detection sensitivity.
Paper link:
https://www.nature.com/articles/s42256-024-00875-x
以上是糖蛋白組學新方法,復旦開發基於Transformer和GNN的混合端對端框架,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!