SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載-AI-php.cn

ホームページ

テクノロジー周辺機器

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載

王林

Aug 12, 2024 pm 04:06 PM

AI タンパク質理論 DNA

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載

編集者 | 大根の皮

質量分析ベースのプロテオミクスにおける基本的な課題は、各タンデム質量スペクトル (MS/MS) を生成するペプチドの同定です。既知のペプチド配列のデータベースに依存する方法は、予期しないペプチドを検出できず、場合によっては非実用的または適用できない可能性があります。

したがって、事前情報なしでペプチド配列を MS/MS に割り当てる機能 (つまり、新規ペプチド配列決定) は、抗体配列決定、免疫ペプチドミクス、メタプロテオミクスなどのタスクにとって非常に価値があります。

この問題を解決するために多くの方法が開発されてきましたが、MS/MS の不規則なデータ構造をモデル化することが難しいこともあり、未解決の課題のままです。

ここで、ワシントン大学の研究者は、Transformer ニューラルネットワークアーキテクチャを使用して MS/MS のピーク配列を、結果として得られるペプチドを構成するアミノ酸配列に変換する機械学習モデルである Casanovo について説明します。

チームは、3,000 万のラベル付きスペクトルで Casanovo モデルをトレーニングし、このモデルが異種ベンチマークデータセットでいくつかの最先端の手法よりも優れていることを実証しました。

チームは、非酵素ペプチド用に微調整されたバージョンの Casanovo も開発しました。このツールは、免疫ペプチドミクスおよびメタプロテオミクス実験の分析を改善し、科学者が暗いプロテオームをより深く調査できるようにします。

この研究は「トランスフォーマーモデルを使用した質量スペクトルからペプチドへの配列間変換」というタイトルで、2024年7月31日に「Nature Communications」に掲載されました。

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載

1. 質量分析は、複雑な生物学的システム内のタンパク質を同定および定量するために使用される主流のプロテオーム分析技術です。

タンデム質量分析 (MS/MS) テクノロジーは複雑なデータを生成し、これらのスペクトルをタンパク質のアミノ酸配列に変換するのは困難です。
ディープラーニングは、デノボペプチドシークエンシングの最初の選択肢となっていますが、その制限には次のようなものがあります: 注釈付きのMS/MSスペクトルの数が少ない、高解像度のMS/MSデータのエンコードの難しさ、複雑なニューラルネットワークと後処理ステップ。
Casanovo は、Transformer アーキテクチャ を使用して de novo ペプチド配列決定タスクを機械翻訳問題として再構成し、MS/MS スペクトルの m/z と強度値のペアを使用して予測ペプチド配列を直接出力します。
最新の研究で、Casanovo は次のような改善を行いました:
- MassIVE-KB スペクトルライブラリ の 6 億 6,900 万のスペクトルを使用してトレーニングセットを拡張しました。
- 厳格な FDR 制御により、1% FDR でデータを検索し、一意のプリカーサーごとに 100 PSM のみを保持し、合計 3,000 万の高品質 PSM を保持します。
- 各 MS/MS スペクトルに最適なペプチドを予測するビーム検索デコーダー。
  ## Casanovo: Transformer アーキテクチャを使用した de novo ペプチドシーケンス

図 1: Casanovo は、Transformer アーキテクチャを使用して de novo ペプチドシーケンスを実行します。 (出典: 論文)

Casanovo の優れたパフォーマンスは 2 つの側面に起因しています:

大量の高品質のトレーニングデータの保有
Transformer アーキテクチャの使用

Transformer アーキテクチャ

Transformer アーキテクチャは可変長の変換に特に適しています。シーケンスの要素はコンテキスト内に配置されるため、自然言語モデリングで大きな成功を収めます。リカレントニューラルネットワークと比較して、Transformer アーキテクチャはシーケンス要素間の長距離の依存関係を学習でき、効率的なトレーニングのために並列化できます。

Casanovo のアプリケーション

Casanovo は、Transformer アーキテクチャと大規模な言語モデルの迅速な開発を利用して、質量スペクトルピークをシーケンスにエンコードし、MS/MS スペクトルの de novo ペプチドシーケンスを改善します。

アプリケーションシナリオ:

古プロテオミクス
法医学
宇宙生物学
データベースに存在しないペプチドの検出
標準的なデータベース検索のポストプロセッサとして

抗体配列決定

カサノボはまだ行っていないまだ抗体配列決定の使用を検討していませんでした。しかし、ドイツの BAM の Denis Beslic のグループによる研究では、抗体配列決定の問題に関して、Casanovo を含む 6 つの新規配列決定ツールの体系的な比較が行われました。

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載

グラフィック: IgG1-Human-HC 上のさまざまな酵素に対する

Novor、pNovo 3、DeepNovo、SMSNet、PointNovo、および Casanovo の全体的な再現率と精度。

関連リンク:
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false

結果:

Casanovo는 고려된 모든 측정 항목에서 경쟁 방법보다 훨씬 뛰어납니다. 이 비교에서는 Casanovo의 탐욕스러운 디코딩 버전을 사용했으며 200만 개의 스펙트럼에 대해서만 훈련되었다는 점은 주목할 가치가 있습니다.

평가:

카사노보 팀은 9종에 걸쳐 카사노보를 벤치마킹했습니다. 아래 그래프는 3천만 개의 스펙트럼으로 훈련된 업데이트된 버전의 Casanovo가 더 나은 항체 시퀀싱 성능을 생성한다는 것을 보여줍니다.

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載

그래픽: Casanovo는 9종 벤치마크에서 PointNovo, DeepNovo, Novor와 같은 모델보다 성능이 뛰어납니다. (출처: 논문)

미래에는 특정 응용 분야에 맞게 Casanovo 모델을 미세 조정할 수 있는 많은 기회가 있을 것입니다. 비효소 모델에 대한 연구원의 분석은 Casanovo의 효소 편향이 상대적으로 적은 훈련 데이터를 사용하여 조정될 수 있음을 보여주었습니다.

그래서 팀은 단기적으로 다양한 용해 효소에 작용하는 Casanovo의 변종을 훈련할 계획입니다. Casanovo 소프트웨어를 사용하면 이러한 미세 조정이 쉬워지므로 특정 실험 설정에 모델을 적용하는 데 관심이 있는 사용자라면 누구나 그렇게 할 수 있어야 합니다.

장기적으로 이상적인 모델은 관련 메타데이터(예: 소화 효소, 충돌 에너지, 기기 유형)와 함께 입력 스펙트럼을 사용하여 다양한 유형의 실험 설정을 정확하게 예측합니다.

새로운 시퀀싱 기능을 향상시키는 딥 러닝 방법의 잠재력은 이제 널리 인식되고 있습니다. 이 논문이 검토되는 동안 GraphNovo, PepNet, Denovo-GCN, Spectralis, π-HelixNovo 및 NovoB를 포함하여 최소 6개의 다른 딥 러닝 de novo 시퀀싱 방법이 출판되었습니다. 분명히 이 분야는 성장하는 도구 분야에 대한 포괄적이고 엄격한 벤치마킹을 통해 이익을 얻을 것입니다.

관련하여 이 단계에서 현장의 주요 병목 현상 중 하나는 de novo 시퀀싱에 대한 엄격한 신뢰도 평가 방법이 부족하다는 것입니다.

메타단백질체학 분석에서 연구자들은 Casanovo 예측을 표적 및 해당 미끼 펩타이드 데이터베이스와 일치시켰지만, 이 접근법은 펩타이드를 이국적인 프로필에 할당하는 새로운 시퀀싱 능력을 무시했습니다.

따라서 열린 질문은 Casanovo가 주어진 데이터 종속 획득 데이터 세트에 대해 펩티드를 검출하는 통계적 능력 측면에서 표준 데이터베이스 검색 절차를 능가하는지 여부입니다.

연구원들은 충분히 큰 훈련 세트를 사용한 훈련이 DDA 탠덤 질량 분석 데이터 분석 분야에서 데이터베이스 검색의 지배력을 종식시킬 수 있다고 말합니다.

논문 링크: https://www.nature.com/articles/s41467-024-49731-x

以上がSOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1667

CakePHP チュートリアル

1426

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1255

Related knowledge

Bytedance Cutting が SVIP スーパーメンバーシップを開始: 継続的な年間サブスクリプションは 499 元で、さまざまな AI 機能を提供 Jun 28, 2024 am 03:51 AM

このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティングシステム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元（当サイト注：月額49.9元に相当）、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元（月額41.6元に相当）です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

「Defect Spectrum」は、従来の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業用欠陥検出を初めて実現します。 Jul 26, 2024 pm 05:38 PM

現代の製造において、正確な欠陥検出は製品の品質を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結果、モデルが特定の欠陥カテゴリや位置を識別できなくなります。この問題を解決するために、広州香港科技大学と Simou Technology で構成されるトップの研究チームは、産業欠陥に関する詳細かつ意味的に豊富な大規模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開発しました。表 1 に示すように、他の産業データセットと比較して、「DefectSpectrum」データセットは最も多くの欠陥注釈 (5438 個の欠陥サンプル) と最も詳細な欠陥分類 (125 個の欠陥カテゴリ) を提供します。

結晶相問題を解決するための数百万の結晶データを使用したトレーニング、深層学習手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金属から大きな膜タンパク質に至るまで、結晶学によって決定される構造の詳細と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問題は、実験的に決定された振幅から位相情報を取得することのままです。デンマークのコペンハーゲン大学の研究者らは、結晶相の問題を解決するための PhAI と呼ばれる深層学習手法を開発しました。数百万の人工結晶構造とそれに対応する合成回折データを使用して訓練された深層学習ニューラルネットワークは、正確な電子密度マップを生成できます。この研究では、この深層学習ベースの非経験的構造解法は、従来の非経験的計算法とは異なり、わずか 2 オングストロームの解像度で位相問題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ～ 20% に相当します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープンモデルが開発されています。

Google AI が IMO 数学オリンピック銀メダルを獲得、数理推論モデル AlphaProof が発売、強化学習が復活 Jul 26, 2024 pm 02:40 PM

AI にとって、数学オリンピックはもはや問題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の国際数学オリンピック IMO の本当の問題を解決するという偉業を達成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代数、組合せ論、幾何学、数論を含む 6 つの問題が出題されました。 Googleが提案したハイブリッドAIシステムは4問正解で28点を獲得し、銀メダルレベルに達した。今月初め、UCLA 終身教授のテレンス・タオ氏が、100 万ドルの賞金をかけて AI 数学オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質問を同時に行うのが最も難しいのは、最も歴史が長く、規模が最も大きく、最も否定的な IMO です。

PRO | なぜ MoE に基づく大規模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進化しています。同時に、AI は身体化されたインテリジェンスや自動運転などの主要な分野の技術的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの状況は揺るがされるだろうか？ MoE (専門家混合) アーキテクチャに基づく大規模モデルの検討が業界の新しいトレンドになっているのはなぜですか?ラージビジョンモデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過去 6 か月間にリリースされたこのサイトの 2023 PRO メンバーニュースレターから、上記の分野の技術トレンドと業界の変化を詳細に分析し、新しい分野での目標を達成するのに役立つ 10 の特別な解釈を選択しました。準備してください。この解釈は 2023 年の Week50 からのものです

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データセットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データセットがありますが、これらのデータセットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創薬や有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。これに触発されて、浙江大学のHou Tingjun氏のチームは、単一ステップの逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案した。そして、高品質かつ多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。広範な実験により、このモデルが標準ベンチマークデータセット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度が 60.8% であることが示されました。

See all articles

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマー モデルを開発、Nature サブジャーナルに掲載

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

SOTA のパフォーマンス、ワシントン大学が質量スペクトルをペプチド配列に変換するトランスフォーマーモデルを開発、Nature サブジャーナルに掲載