질량분석 기반 단백질체학의 근본적인 과제는 각 직렬 질량 스펙트럼(MS/MS)을 생성하는 펩타이드를 식별하는 것입니다. 알려진 펩타이드 서열의 데이터베이스에 의존하는 방법은 예상치 못한 펩타이드를 검출할 수 없으며 어떤 경우에는 비실용적이거나 적용이 불가능할 수 있습니다.
따라서 사전 정보 없이 MS/MS에 펩타이드 서열을 할당하는 기능(예: 새로운 펩타이드 서열 분석)은 항체 서열 분석, 면역펩티도믹스, 메타프로테오믹스와 같은 작업에 매우 중요합니다.
이 문제를 해결하기 위해 많은 방법이 개발되었지만 부분적으로 MS/MS의 불규칙한 데이터 구조를 모델링하는 데 어려움이 있기 때문에 아직 해결되지 않은 과제로 남아 있습니다.
여기서 워싱턴 대학의 연구원들은 Transformer 신경망 아키텍처를 사용하여 MS/MS의 피크 서열을 결과 펩타이드를 구성하는 아미노산 서열로 변환하는 기계 학습 모델인 Casanovo에 대해 설명합니다.
팀은 3천만 개의 레이블이 지정된 스펙트럼에 대해 Casanovo 모델을 훈련했으며 이 모델이 종간 벤치마크 데이터 세트에서 여러 가지 최첨단 방법보다 성능이 우수하다는 것을 입증했습니다.
팀은 또한 비효소 펩타이드에 맞게 미세 조정된 Casanovo 버전을 개발했습니다. 이 도구는 면역펩티도믹스 및 메타프로테오믹스 실험의 분석을 개선하고 과학자들이 어두운 단백질체에 대해 더 깊이 탐구할 수 있도록 해줍니다.
이 연구의 제목은 "변압기 모델을 사용한 질량 스펙트럼에서 펩타이드로의 서열 간 번역"이며 2024년 7월 31일 "Nature Communications"에 게재되었습니다.
1. 질량분석법은 복잡한 생물학적 시스템에서 단백질을 식별하고 정량화하는 데 사용되는 주류 단백질체 분석 기술입니다.최신 연구에서 Casanovo는 다음을 포함하여 개선했습니다.
그림 1: Casanovo는 Transformer 아키텍처를 사용하여 새로운 펩타이드 시퀀싱을 수행합니다. (출처: 논문)
Casanovo의 뛰어난 성능은 두 가지 측면에 기인합니다:
Transformer 아키텍처
Transformer 아키텍처는 가변 길이를 변환하는 데 특히 적합합니다. 시퀀스의 요소는 컨텍스트에 배치되므로 자연어 모델링에서 큰 성공을 거두었습니다. 순환 신경망과 비교하여 Transformer 아키텍처는 시퀀스 요소 간의 장거리 종속성을 학습할 수 있으며 효율적인 교육을 위해 병렬화할 수 있습니다.
Casanovo의 응용
Casanovo는 Transformer 아키텍처와 대규모 언어 모델의 신속한 개발을 활용하여 질량 스펙트럼 피크를 시퀀스로 인코딩하여 MS/MS 스펙트럼의 새로운 펩타이드 시퀀싱을 개선합니다.
응용 시나리오:
항체 시퀀싱
Casanovo는 아직 항체 서열 분석의 사용을 탐구했습니다. 그러나 독일 BAM의 Denis Beslic 그룹의 연구에서는 항체 서열 분석 문제에 대해 Casanovo를 포함한 6개의 de novo 서열 분석 도구를 체계적으로 비교했습니다.
그래픽: IgG1-Human-HC의 다양한 효소에 대한Novor, pNovo 3, DeepNovo, SMSNet, PointNovo 및 Casanovo의 전반적인 재현율과 정밀도.
관련 링크:
https://academic.oup.com/bib/article/24/1/bbac542/6955273?login=false
결과:
Casanovo übertrifft konkurrierende Methoden bei allen berücksichtigten Metriken deutlich. Es ist erwähnenswert, dass dieser Vergleich die Greedy-Dekodierungsversion von Casanovo verwendete und nur auf 2 Millionen Spektren trainiert wurde.
Bewertung:
Das Casanovo-Team hat Casanovo anhand von neun Arten verglichen. Die folgende Grafik zeigt, dass eine aktualisierte Version von Casanovo, die mit 30 Millionen Spektren trainiert wurde, eine bessere Antikörpersequenzierungsleistung liefert.
Grafik: Casanovo übertrifft Modelle wie PointNovo, DeepNovo und Novor bei neun Arten-Benchmarks. (Quelle: Papier)In Zukunft wird es viele Möglichkeiten geben, das Casanovo-Modell für bestimmte Anwendungen zu verfeinern. Die Analyse nicht-enzymatischer Modelle durch die Forscher zeigte, dass Casanovos enzymatische Tendenz durch die Verwendung relativ weniger Trainingsdaten angepasst werden konnte.
Kurzfristig plant das Team, Varianten von Casanovo zu trainieren, die auf eine Vielzahl unterschiedlicher lytischer Enzyme wirken. Die Software von Casanovo macht diese Feinabstimmung einfach, sodass jeder Benutzer, der daran interessiert ist, das Modell an einen bestimmten Versuchsaufbau anzupassen, dazu in der Lage sein sollte.
Langfristig betrachtet verwendet das ideale Modell als Eingabespektren zusammen mit zugehörigen Metadaten (wie Verdauungsenzyme, Kollisionsenergien und Instrumententyp) und sagt viele verschiedene Arten von Versuchsaufbauten genau voraus.
Das Potenzial von Deep-Learning-Methoden zur Verbesserung der De-novo-Sequenzierungsfähigkeiten ist mittlerweile allgemein anerkannt. Während der Begutachtung dieses Artikels wurden mindestens sechs weitere Deep-Learning-De-novo-Sequenzierungsmethoden veröffentlicht, darunter GraphNovo, PepNet, Denovo-GCN, Spectralis, π-HelixNovo und NovoB. Es ist klar, dass der Bereich von einem umfassenden und strengen Benchmarking dieses wachsenden Werkzeugbereichs profitieren würde.
In diesem Zusammenhang ist einer der größten Engpässe auf diesem Gebiet derzeit das Fehlen strenger Methoden zur Vertrauensbewertung für die De-novo-Sequenzierung.
In Metaproteomik-Analysen haben Forscher Casanovo-Vorhersagen mit einer Datenbank von Zielen und entsprechenden Täuschungspeptiden abgeglichen, aber dieser Ansatz ignorierte die Fähigkeit der De-novo-Sequenzierung, Peptide exotischen Profilen zuzuordnen.
Daher bleibt die Frage offen, ob Casanovo Standard-Datenbanksuchverfahren hinsichtlich der statistischen Aussagekraft zum Nachweis von Peptiden für einen bestimmten datenabhängigen Erfassungsdatensatz übertrifft.
Die Forscher sagen, dass das Training mit einem ausreichend großen Trainingssatz möglicherweise die Dominanz der Datenbanksuche im Bereich der DDA-Tandem-Massenspektrometrie-Datenanalyse beenden kann.
Link zum Papier: https://www.nature.com/articles/s41467-024-49731-x
위 내용은 SOTA 성과, 워싱턴 대학교는 질량 스펙트럼을 펩타이드 서열로 변환하는 Transformer 모델을 개발했으며 Nature 하위 저널에 게재됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!