タンパク質のグリコシル化は、糖基によるタンパク質の翻訳後修飾であり、細胞のさまざまな生理学的および病理学的機能において重要な役割を果たします。
グリコプロテオミクスは、タンデム質量分析 (MS/MS) 技術と組み合わせた液体クロマトグラフィーを使用して、グリコシル化部位、グリコシル化レベル、糖構造に関する複合情報を取得する、プロテオーム内のタンパク質のグリコシル化の研究です。
しかし、糖プロテオミクスのための現在のデータベース検索方法では、構造を決定するイオンの出現が限られているため、糖鎖構造を決定することが困難なことがよくあります。スペクトル検索法は断片化強度を利用して糖ペプチドの構造同定を容易にすることができますが、スペクトル ライブラリー構築の難しさによりその応用が妨げられています。
最新の研究では、復旦大学の研究者らは、糖ペプチドの MS/MS スペクトルと保持時間 (RT) を予測するための、Transformer およびグラフ ニューラル ネットワークに基づくハイブリッド深層学習フレームワークである DeepGP を提案しました。
2 つのグラフ ニューラル ネットワーク モジュールを使用して、それぞれ分岐糖構造を捕捉し、糖イオン強度を予測します。さらに、糖プロテオームデータの不足を軽減するために、事前トレーニング戦略が実装されました。
この研究は「糖ペプチドタンデム質量スペクトルの深層学習予測が糖プロテオミクスを強化する」と題され、2024年7月30日に「Nature Machine Intelligence」に掲載されました。
タンパク質の翻訳後修飾 (PTM) により、プロテオームの複雑さが大幅に増加します。最も重要な PTM の 1 つであるグリコシル化は、哺乳動物のタンパク質の 50% 以上に影響を与え、多くの生理学的および病理学的プロセスにおいて重要な役割を果たします。グリコシル化プロセス中に、糖分子が特定のアミノ酸残基の側鎖に結合し、その結果、構造的不均一性が生じ、その結果、糖ペプチド異性体の多様性が生じ、同定が困難になります。
液体クロマトグラフィータンデム質量分析法 (LC-MS/MS) は、RT と組み合わせたフラグメントイオンと分子量によって糖ペプチドを同定する主要な技術です。質量電荷比 (m/z) だけでは糖の構造を決定するのに十分ではないため、科学者は識別感度を向上させるためにスペクトル照合法を使用します。ただし、糖ペプチド MS/MS スペクトル ライブラリの構築はコストがかかり、複雑です。
近年、ディープラーニングによりペプチドのMS/MSスペクトル予測が進歩しました。ただし、現在のグリコペプチドミクス データ セットの数が比較的少ないことと、グリコペプチド質量分析データを生成するための標準化されたプロトコルが存在しないため、ディープ ラーニング モデルのトレーニングに適したデータの利用可能性が制限されています。
この目的を達成するために、復旦大学の研究者らは、完全な N-糖ペプチド MS/MS スペクトルと RT 予測のための深層学習ベースのハイブリッド エンドツーエンド フレームワークである DeepGP を提案しています。深層学習フレームワークは、事前トレーニングされた Transformer モジュールと 2 つのグラフ ニューラル ネットワーク (GNN) モジュールで構成されます。
図: モデルのアーキテクチャと糖ペプチド MS/MS スペクトル予測。DeepGPモデル
エンコードされた糖ペプチドの特徴:
糖構造は GNN を介して埋め込まれ、糖ペプチドをグラフに変換します。
2 つの GNN モジュールが糖構造を捕捉し、糖イオン強度を予測
研究者らは、糖インターカレーション用にグラフ畳み込みネットワーク (GCN)、グラフ同型ネットワーク (GIN)、グラフ アテンション ネットワーク (GAT) を含む 3 つの GNN アーキテクチャを評価しました。 B/Y イオン強度予測。
GCN は畳み込み演算を利用してノード表現を取得し、メッセージ パッシング プロトコルを実装して隣接するノードの表現を集約します。GIN はグラフ同型性テストで優れたパフォーマンスを発揮し、モデルが入力の最も関連性の高い部分に焦点を当てることができるようにします。 。
実験結果は、GCN が糖包埋タスクで最高のパフォーマンスを発揮するのに対し、GIN は B/Y イオン強度予測タスクで良好なパフォーマンスを発揮することを示しているため、GCN と GIN が対応する分析に選択されました。
糖プロテオミクスデータの不足を軽減するための事前トレーニング戦略
DeepGPは、BERTなどのモデルと同様に、事前トレーニングに大量のラベルなしの自然言語データを使用します。事前トレーニングにより、正式なトレーニングの前にモデルに知識ベースを持たせることができるため、小規模な注釈付きデータを処理する際のパフォーマンスが向上します。
複数の生物学的データセットでのテスト
研究人員使用小鼠和人類樣本資料集,證明了 DeepGP 在 MS/MS 和 RT 預測方面的高精度。
圖示:DeepGP 結合 pGlyco3(一種糖肽搜尋方法)進行糖肽鑑定。 (資料來源:論文)DeepGP 在合成和生物資料集上的全面基準測試驗證了其區分相似聚醣的有效性。 DeepGP 與資料庫搜尋結合可提高糖肽檢測靈敏度。
論文連結:
https://www.nature.com/articles/s42256-024-00875-x
以上がグリコプロテオミクスの新しい手法、Fudan が Transformer と GNN に基づくハイブリッド エンドツーエンド フレームワークを開発、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。