SOTA性能，华盛顿大学开发Transformer模型将质谱转化为肽序列，登Nature子刊-人工智能-PHP中文网

SOTA性能，华盛顿大学开发Transformer模型将质谱转化为肽序列，登Nature子刊

编辑 | 萝卜皮

基于质谱的蛋白质组学面临的一项基本挑战是识别产生每个串联质谱（MS/MS）的肽。依赖已知肽序列数据库的方法无法检测意外肽，在某些情况下可能不切实际或无法应用。

因此，无需先验信息（即从头肽测序）就能将肽序列分配到 MS/MS 中的能力对于抗体测序、免疫肽组学和元蛋白质组学等任务非常有价值。

尽管已开发出许多方法来解决这个问题，但它仍然是一个悬而未决的挑战，部分原因是难以对 MS/MS 的不规则数据结构进行建模。

在这里，华盛顿大学的研究人员描述了 Casanovo，这是一种机器学习模型，它使用 Transformer 神经网络架构将 MS/MS 中的峰序列转换为构成生成肽的氨基酸序列。

该团队根据 3000 万个标记光谱训练了 Casanovo 模型，并证明该模型在跨物种基准数据集上的表现优于几种先进方法。

该团队还开发了一个针对非酶肽进行微调的 Casanovo 版本。该工具改善了免疫肽组学和宏蛋白质组学实验的分析，并使科学家能够更深入地研究暗蛋白质组。

该研究以「Sequence-to-sequence translation from mass spectra to peptides with a transformer model」为题，于 2024 年 7 月 31 日发布在《Nature Communications》。

SOTA性能，华盛顿大学开发Transformer模型将质谱转化为肽序列，登Nature子刊

1. 质谱法是主流的蛋白质组分析技术，用于鉴定和量化复杂生物系统中的蛋白质。

串联质谱 (MS/MS) 技术产生的数据复杂，将这些光谱转换成蛋白质氨基酸序列具有挑战性。
深度学习已成为从头肽测序的首选，但其局限性包括：注释 MS/MS 光谱数量少、难以编码高分辨率 MS/MS 数据、复杂的神经网络和后处理步骤。
Casanovo将从头肽测序任务重新定义为机器翻译问题，使用 Transformer 架构直接使用 MS/MS 光谱的 m/z 和强度值对，输出预测的肽序列。
最新研究中，Casanovo 进行了改进，包括：
- 扩展训练集，使用 MassIVE-KB 光谱库中 6.69 亿光谱。
- 严格的 FDR 控制，在 1% FDR 下搜索数据，仅保留每个独特前体的 100 个 PSM，共 3000 万个高质量 PSM。
- 波束搜索解码程序，预测每个 MS/MS 光谱的最佳肽。
  ## Casanovo：使用 Transformer 架构进行从头肽测序

图 1： Casanovo 使用 Transformer 架构执行从头肽测序。（来源：论文）

Casanovo 的出色表现归因于两方面：

拥有大量高质量训练数据
使用 Transformer 架构

Transformer 架构

Transformer 架构特别适合将可变长度序列的元素置于上下文中，因此在自然语言建模方面取得了巨大成功。与循环神经网络相比，Transformer 架构能够学习序列元素之间的长距离依赖关系，并且可以并行化以实现高效训练。

Casanovo 的应用

Casanovo 将质谱峰编码为序列，利用 Transformer 架构的优势和大型语言模型的快速发展，改进了 MS/MS 光谱的从头肽测序。

应用场景：

古蛋白质组学
法医学
天体生物学
检测数据库中不存在的肽
作为标准数据库搜索的后处理器

抗体测序

Casanovo 尚未探索抗体测序的应用。然而，德国 BAM 的 Denis Beslic 团队的一项研究对包括 Casanovo 在内的六种从头测序工具在抗体测序问题上进行了系统比较。

SOTA性能，华盛顿大学开发Transformer模型将质谱转化为肽序列，登Nature子刊

图示：

Novor、pNovo 3、DeepNovo、SMSNet、PointNovo 和 Casanovo 对 IgG1-Human-HC 上不同酶的总体召回率和精确度。

相关链接：
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false

结果：

Casanovo は、考慮されたすべての指標において競合手法を大幅に上回っています。この比較では Casanovo の貪欲なデコードバージョンが使用され、200 万のスペクトルのみでトレーニングされたことは注目に値します。

評価:

Casanovo チームは、9 つの種にわたって Casanovo をベンチマークしました。以下のグラフは、3,000 万のスペクトルでトレーニングされた Casanovo の更新バージョンがより優れた抗体配列パフォーマンスを生み出すことを示しています。

SOTA性能，华盛顿大学开发Transformer模型将质谱转化为肽序列，登Nature子刊

グラフィック: Casanovo は、9 種のベンチマークで PointNovo、DeepNovo、Novor などのモデルを上回っています。 (出典: 論文)

将来的には、特定の用途に合わせて Casanovo モデルを微調整する機会が多くなるでしょう。研究者らによる非酵素モデルの分析により、カサノボの酵素バイアスは比較的少ないトレーニングデータを使用して調整できることが示されました。

そのため、チームは短期的には、さまざまな異なる溶解酵素に作用する Casanovo のバリアントをトレーニングする予定です。 Casanovo ソフトウェアを使用すると、この微調整が簡単になるため、モデルを特定の実験設定に適合させることに興味のあるユーザーは誰でもそうできるはずです。

長期的には、理想的なモデルは、関連するメタデータ (消化酵素、衝突エネルギー、機器の種類など) とともにスペクトルを入力として受け取り、さまざまなタイプの実験設定を正確に予測します。

de novo シーケンシング機能を向上させる深層学習手法の可能性は、現在広く認識されています。この論文がレビューされている間に、GraphNovo、PepNet、Denovo-GCN、Spectralis、π-HelixNovo、NovoB など、少なくとも 6 つのディープラーニングデノボシーケンス手法が公開されていました。この分野が、この成長するツール分野の包括的かつ厳密なベンチマークから恩恵を受けることは明らかです。

これに関連して、現段階でのこの分野の大きなボトルネックの 1 つは、de novo シーケンスに対する厳密な信頼性評価方法が欠如していることです。

メタプロテオミクス解析では、研究者らはカサノボの予測を標的および対応するデコイペプチドのデータベースと照合しましたが、このアプローチはペプチドをエキゾチックなプロファイルに割り当てるデノボシーケンシングの能力を無視していました。

したがって、未解決の問題は、特定のデータ依存取得データセットのペプチドを検出する統計的検出力の点で、Casanovo が標準のデータベース検索手順を上回るかどうかです。

研究者らは、十分な大規模なトレーニングセットを使用してトレーニングを行うことで、DDA タンデム質量分析データ分析の分野におけるデータベース検索の支配を終わらせることができる可能性があると述べています。

論文リンク: https://www.nature.com/articles/s41467-024-49731-x

以上是SOTA性能，华盛顿大学开发Transformer模型将质谱转化为肽序列，登Nature子刊的详细内容。更多信息请关注PHP中文网其他相关文章！