基于质谱的蛋白质组学面临的一项基本挑战是识别产生每个串联质谱(MS/MS)的肽。依赖已知肽序列数据库的方法无法检测意外肽,在某些情况下可能不切实际或无法应用。
因此,无需先验信息(即从头肽测序)就能将肽序列分配到 MS/MS 中的能力对于抗体测序、免疫肽组学和元蛋白质组学等任务非常有价值。
尽管已开发出许多方法来解决这个问题,但它仍然是一个悬而未决的挑战,部分原因是难以对 MS/MS 的不规则数据结构进行建模。
在这里,华盛顿大学的研究人员描述了 Casanovo,这是一种机器学习模型,它使用 Transformer 神经网络架构将 MS/MS 中的峰序列转换为构成生成肽的氨基酸序列。
该团队根据 3000 万个标记光谱训练了 Casanovo 模型,并证明该模型在跨物种基准数据集上的表现优于几种先进方法。
该团队还开发了一个针对非酶肽进行微调的 Casanovo 版本。该工具改善了免疫肽组学和宏蛋白质组学实验的分析,并使科学家能够更深入地研究暗蛋白质组。
该研究以「Sequence-to-sequence translation from mass spectra to peptides with a transformer model」为题,于 2024 年 7 月 31 日发布在《Nature Communications》。
1. 质谱法是主流的蛋白质组分析技术,用于鉴定和量化复杂生物系统中的蛋白质。最新研究中,Casanovo 进行了改进,包括:
图 1: Casanovo 使用 Transformer 架构执行从头肽测序。(来源:论文)
Casanovo 的出色表现归因于两方面:
Transformer 架构
Transformer 架构特别适合将可变长度序列的元素置于上下文中,因此在自然语言建模方面取得了巨大成功。与循环神经网络相比,Transformer 架构能够学习序列元素之间的长距离依赖关系,并且可以并行化以实现高效训练。
Casanovo 的应用
Casanovo 将质谱峰编码为序列,利用 Transformer 架构的优势和大型语言模型的快速发展,改进了 MS/MS 光谱的从头肽测序。
应用场景:
抗体测序
Casanovo 尚未探索抗体测序的应用。然而,德国 BAM 的 Denis Beslic 团队的一项研究对包括 Casanovo 在内的六种从头测序工具在抗体测序问题上进行了系统比较。
图示:Novor、pNovo 3、DeepNovo、SMSNet、PointNovo 和 Casanovo 对 IgG1-Human-HC 上不同酶的总体召回率和精确度。
相关链接:
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false
结果:
Casanovo は、考慮されたすべての指標において競合手法を大幅に上回っています。この比較では Casanovo の貪欲なデコード バージョンが使用され、200 万のスペクトルのみでトレーニングされたことは注目に値します。
評価:
Casanovo チームは、9 つの種にわたって Casanovo をベンチマークしました。以下のグラフは、3,000 万のスペクトルでトレーニングされた Casanovo の更新バージョンがより優れた抗体配列パフォーマンスを生み出すことを示しています。
グラフィック: Casanovo は、9 種のベンチマークで PointNovo、DeepNovo、Novor などのモデルを上回っています。 (出典: 論文)将来的には、特定の用途に合わせて Casanovo モデルを微調整する機会が多くなるでしょう。研究者らによる非酵素モデルの分析により、カサノボの酵素バイアスは比較的少ないトレーニング データを使用して調整できることが示されました。
そのため、チームは短期的には、さまざまな異なる溶解酵素に作用する Casanovo のバリアントをトレーニングする予定です。 Casanovo ソフトウェアを使用すると、この微調整が簡単になるため、モデルを特定の実験設定に適合させることに興味のあるユーザーは誰でもそうできるはずです。
長期的には、理想的なモデルは、関連するメタデータ (消化酵素、衝突エネルギー、機器の種類など) とともにスペクトルを入力として受け取り、さまざまなタイプの実験設定を正確に予測します。
de novo シーケンシング機能を向上させる深層学習手法の可能性は、現在広く認識されています。この論文がレビューされている間に、GraphNovo、PepNet、Denovo-GCN、Spectralis、π-HelixNovo、NovoB など、少なくとも 6 つのディープ ラーニング デノボ シーケンス手法が公開されていました。この分野が、この成長するツール分野の包括的かつ厳密なベンチマークから恩恵を受けることは明らかです。
これに関連して、現段階でのこの分野の大きなボトルネックの 1 つは、de novo シーケンスに対する厳密な信頼性評価方法が欠如していることです。
メタプロテオミクス解析では、研究者らはカサノボの予測を標的および対応するデコイペプチドのデータベースと照合しましたが、このアプローチはペプチドをエキゾチックなプロファイルに割り当てるデノボシーケンシングの能力を無視していました。
したがって、未解決の問題は、特定のデータ依存取得データセットのペプチドを検出する統計的検出力の点で、Casanovo が標準のデータベース検索手順を上回るかどうかです。
研究者らは、十分な大規模なトレーニングセットを使用してトレーニングを行うことで、DDA タンデム質量分析データ分析の分野におけるデータベース検索の支配を終わらせることができる可能性があると述べています。
論文リンク: https://www.nature.com/articles/s41467-024-49731-x
以上是SOTA性能,华盛顿大学开发Transformer模型将质谱转化为肽序列,登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章!