SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨

王林
풀어 주다: 2024-08-12 16:06:20
원래의
1111명이 탐색했습니다.

SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨

Editor | Radish Skin

질량분석 기반 단백질체학의 근본적인 과제는 각 직렬 질량 스펙트럼(MS/MS)을 생성하는 펩타이드를 식별하는 것입니다. 알려진 펩타이드 서열의 데이터베이스에 의존하는 방법은 예상치 못한 펩타이드를 검출할 수 없으며 어떤 경우에는 비실용적이거나 적용이 불가능할 수 있습니다.

따라서 사전 정보 없이 MS/MS에 펩타이드 서열을 할당하는 기능(예: 새로운 펩타이드 서열 분석)은 항체 서열 분석, 면역펩티도믹스, 메타프로테오믹스와 같은 작업에 매우 중요합니다.

이 문제를 해결하기 위해 많은 방법이 개발되었지만 부분적으로 MS/MS의 불규칙한 데이터 구조를 모델링하는 데 어려움이 있기 때문에 아직 해결되지 않은 과제로 남아 있습니다.

여기서 워싱턴 대학의 연구원들은 Transformer 신경망 아키텍처를 사용하여 MS/MS의 피크 서열을 결과 펩타이드를 구성하는 아미노산 서열로 변환하는 기계 학습 모델인 Casanovo에 대해 설명합니다.

팀은 3천만 개의 레이블이 지정된 스펙트럼에 대해 Casanovo 모델을 훈련했으며 이 모델이 종간 벤치마크 데이터 세트에서 여러 가지 최첨단 방법보다 성능이 우수하다는 것을 입증했습니다.

팀은 또한 비효소 펩타이드에 맞게 미세 조정된 Casanovo 버전을 개발했습니다. 이 도구는 면역펩티도믹스 및 메타프로테오믹스 실험의 분석을 개선하고 과학자들이 어두운 단백질체에 대해 더 깊이 탐구할 수 있도록 해줍니다.

이 연구의 제목은 "변압기 모델을 사용한 질량 스펙트럼에서 펩타이드로의 서열 간 번역"이며 2024년 7월 31일 "Nature Communications"에 게재되었습니다.

SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨

1. 질량분석법은 복잡한 생물학적 시스템에서 단백질을 식별하고 정량화하는 데 사용되는 주류 단백질체 분석 기술입니다.
  1. 탠덤 질량 분석법(MS/MS) 기술은 복잡한 데이터를 생성하며 이러한 스펙트럼을 단백질 아미노산 서열로 변환하는 것은 어렵습니다.
  2. 딥 러닝은 새로운 펩타이드 시퀀싱을 위한 첫 번째 선택이 되었지만 주석이 달린 MS/MS 스펙트럼의 수가 적고 고해상도 MS/MS 데이터 인코딩의 어려움, 복잡한 신경망 및 후처리 단계 등의 제한 사항이 있습니다. .
  3. Casanovo는 MS/MS 스펙트럼의 m/z 및 강도 값 쌍을 사용하여 예측된 펩타이드 서열을 직접 출력하는 Transformer 아키텍처를 사용하여 새로운 펩타이드 서열 분석 작업을 기계 번역 문제로 재구성합니다.
  4. 최신 연구에서 Casanovo는 다음을 포함하여 개선했습니다.

    • MassIVE-KB 스펙트럼 라이브러리에서 6억 6900만 스펙트럼을 사용하여 확장된 훈련 세트.
    • 엄격한 FDR 제어, 1% FDR로 데이터를 검색하고 각 고유 전구체에 대해 100개의 PSM만 유지하여 총 3천만 개의 고품질 PSM을 제공합니다.
    • 각 MS/MS 스펙트럼에 가장 적합한 펩타이드를 예측하는 빔 검색 디코더입니다.

      SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨

      ## Casanovo: Transformer 아키텍처를 사용하여 새로운 펩타이드 시퀀싱

그림 1: Casanovo는 Transformer 아키텍처를 사용하여 새로운 펩타이드 시퀀싱을 수행합니다. (출처: 논문)

Casanovo의 뛰어난 성능은 두 가지 측면에 기인합니다:

  1. 대량의 고품질 훈련 데이터 보유
  2. Transformer 아키텍처 사용

Transformer 아키텍처

Transformer 아키텍처는 가변 길이를 변환하는 데 특히 적합합니다. 시퀀스의 요소는 컨텍스트에 배치되므로 자연어 모델링에서 큰 성공을 거두었습니다. 순환 신경망과 비교하여 Transformer 아키텍처는 시퀀스 요소 간의 장거리 종속성을 학습할 수 있으며 효율적인 교육을 위해 병렬화할 수 있습니다.

Casanovo의 응용

Casanovo는 Transformer 아키텍처와 대규모 언어 모델의 신속한 개발을 활용하여 질량 스펙트럼 피크를 시퀀스로 인코딩하여 MS/MS 스펙트럼의 새로운 펩타이드 시퀀싱을 개선합니다.

응용 시나리오:

  • 고단백질체학
  • 법의학
  • 우주생물학
  • 데이터베이스에 존재하지 않는 펩타이드 검출
  • 표준 데이터베이스 검색을 위한 후처리기

항체 시퀀싱

Casanovo는 아직 항체 서열 분석의 사용을 탐구했습니다. 그러나 독일 BAM의 Denis Beslic 그룹의 연구에서는 항체 서열 분석 문제에 대해 Casanovo를 포함한 6개의 de novo 서열 분석 도구를 체계적으로 비교했습니다.

SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨

그래픽: IgG1-Human-HC의 다양한 효소에 대한

Novor, pNovo 3, DeepNovo, SMSNet, PointNovo 및 Casanovo의 전반적인 재현율과 정밀도.

관련 링크:
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false

결과:

Casanovo übertrifft konkurrierende Methoden bei allen berücksichtigten Metriken deutlich. Es ist erwähnenswert, dass dieser Vergleich die Greedy-Dekodierungsversion von Casanovo verwendete und nur auf 2 Millionen Spektren trainiert wurde.

Bewertung:

Das Casanovo-Team hat Casanovo anhand von neun Arten verglichen. Die folgende Grafik zeigt, dass eine aktualisierte Version von Casanovo, die mit 30 Millionen Spektren trainiert wurde, eine bessere Antikörpersequenzierungsleistung liefert.

SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨

Grafik: Casanovo übertrifft Modelle wie PointNovo, DeepNovo und Novor bei neun Arten-Benchmarks. (Quelle: Papier)

In Zukunft wird es viele Möglichkeiten geben, das Casanovo-Modell für bestimmte Anwendungen zu verfeinern. Die Analyse nicht-enzymatischer Modelle durch die Forscher zeigte, dass Casanovos enzymatische Tendenz durch die Verwendung relativ weniger Trainingsdaten angepasst werden konnte.

Kurzfristig plant das Team, Varianten von Casanovo zu trainieren, die auf eine Vielzahl unterschiedlicher lytischer Enzyme wirken. Die Software von Casanovo macht diese Feinabstimmung einfach, sodass jeder Benutzer, der daran interessiert ist, das Modell an einen bestimmten Versuchsaufbau anzupassen, dazu in der Lage sein sollte.

Langfristig betrachtet verwendet das ideale Modell als Eingabespektren zusammen mit zugehörigen Metadaten (wie Verdauungsenzyme, Kollisionsenergien und Instrumententyp) und sagt viele verschiedene Arten von Versuchsaufbauten genau voraus.

Das Potenzial von Deep-Learning-Methoden zur Verbesserung der De-novo-Sequenzierungsfähigkeiten ist mittlerweile allgemein anerkannt. Während der Begutachtung dieses Artikels wurden mindestens sechs weitere Deep-Learning-De-novo-Sequenzierungsmethoden veröffentlicht, darunter GraphNovo, PepNet, Denovo-GCN, Spectralis, π-HelixNovo und NovoB. Es ist klar, dass der Bereich von einem umfassenden und strengen Benchmarking dieses wachsenden Werkzeugbereichs profitieren würde.

In diesem Zusammenhang ist einer der größten Engpässe auf diesem Gebiet derzeit das Fehlen strenger Methoden zur Vertrauensbewertung für die De-novo-Sequenzierung.

In Metaproteomik-Analysen haben Forscher Casanovo-Vorhersagen mit einer Datenbank von Zielen und entsprechenden Täuschungspeptiden abgeglichen, aber dieser Ansatz ignorierte die Fähigkeit der De-novo-Sequenzierung, Peptide exotischen Profilen zuzuordnen.

Daher bleibt die Frage offen, ob Casanovo Standard-Datenbanksuchverfahren hinsichtlich der statistischen Aussagekraft zum Nachweis von Peptiden für einen bestimmten datenabhängigen Erfassungsdatensatz übertrifft.

Die Forscher sagen, dass das Training mit einem ausreichend großen Trainingssatz möglicherweise die Dominanz der Datenbanksuche im Bereich der DDA-Tandem-Massenspektrometrie-Datenanalyse beenden kann.

Link zum Papier: https://www.nature.com/articles/s41467-024-49731-x

위 내용은 SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿