현재까지 가장 큰 단백질 언어 모델이 출시되었습니다!
1년 전 DeepMind의 오픈 소스 AlphaFold2가 Nature and Science에 출시되어 생물학 및 AI 학계를 압도했습니다.
1년 후 Meta는 훨씬 더 빠른 ESMFold를 출시했습니다.
빠를 뿐만 아니라 모델에는 150억 개의 매개변수가 있습니다.
LeCun은 트위터를 통해 Meta-FAIR 단백질 팀의 새로운 성과라고 칭찬했습니다.
공동 저자인 Zeming Lin은 30억 개의 매개변수가 있는 대형 모델이 256개의 GPU에서 3주 동안 훈련된 반면 ESMfold는 128개의 GPU에서 10일이 걸렸다고 밝혔습니다. 150억 개의 매개변수 버전에 대해서는 아직 불분명합니다.
코드는 나중에 오픈소스로 공개될 예정이라고 했으니 계속 지켜봐주세요!
오늘의 주인공은 개별 단백질 서열로부터 높은 정확도, end-to-end, 원자 수준의 구조를 직접 예측하는 모델인 ESMFold입니다.
논문 주소: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v1
150억 개의 매개변수가 가져오는 이점은 말할 것도 없이 - 학습을 통해 오늘날의 대형 모델은 세 가지를 예측할 수 있습니다. -원자 크기 정확도를 지닌 단백질의 차원 구조.
정확도 측면에서 ESMFold는 AlphaFold2 및 RoseTTAFold와 거의 동일합니다.
하지만 ESMFold의 추론 속도는 AlphaFold2보다 훨씬 빠릅니다!
크기의 순서로 이야기하면 세 가지의 속도를 비교하면 이해하기 어려울 수 있습니다.
AlphaFold2와 RoseTTAFold는 원자 분해능 구조 예측 문제에서 획기적인 성공을 거두었지만 최적의 성능을 달성하기 위해 다중 서열 정렬(MSA) 및 유사한 단백질 구조 템플릿을 사용합니다.
반면, ESMFold는 언어 모델의 내부 표현을 활용하여 하나의 시퀀스만 입력으로 사용하여 해당 구조 예측을 생성할 수 있으므로 구조 예측 속도가 크게 향상됩니다.
연구원들은 낮은 복잡도 시퀀스에 대한 ESMFold의 예측이 현재의 최첨단 모델과 유사하다는 것을 발견했습니다.
게다가 구조 예측의 정확성은 언어 모델의 복잡성과 밀접한 관련이 있습니다. 즉, 언어 모델이 시퀀스를 더 잘 이해할 수 있을 때 구조를 더 잘 이해할 수 있습니다.
현재 구조와 기능이 알려지지 않은 수십억 개의 단백질 서열이 있으며, 그 중 대부분은 메타게놈 서열 분석에서 파생됩니다.
ESMFold를 사용하여 연구자들은 단 6시간 만에 1백만 개의 메타게놈 서열의 무작위 샘플을 접을 수 있습니다.
이 중 상당수는 신뢰도가 높으며 알려진 구조와 다릅니다(데이터베이스에 기록이 없음).
연구원들은 ESMFold가 현재의 이해를 넘어서는 단백질 구조를 이해하는 데 도움이 될 수 있다고 믿습니다.
또한 ESMFold의 예측은 기존 모델보다 훨씬 빠르기 때문에 연구자들은 ESMFold를 사용하여 빠르게 성장하는 단백질 서열 데이터베이스와 느리게 성장하는 단백질 구조 및 기능 데이터베이스 사이의 격차를 해소하는 데 도움을 줄 수 있습니다.
다음으로 Meta의 새로운 ESMFold에 대해 자세히 이야기해보겠습니다.
ESM-2는 Transformer 기반 언어 모델이며 Attention 메커니즘을 사용하여 입력 시퀀스에서 아미노산 쌍 간의 상호 작용 패턴을 학습합니다.
이전 세대 모델인 ESM-1b와 비교하여 Meta는 모델 구조와 훈련 매개변수를 개선하고 컴퓨팅 리소스와 데이터를 추가했습니다. 동시에 상대 위치 임베딩을 추가하면 모델을 모든 길이의 시퀀스로 일반화할 수 있습니다.
결과에서 1억 5천만 개의 매개변수를 가진 ESM-2 모델이 6억 5천만 개의 매개변수를 가진 ESM-1b 모델보다 더 나은 성능을 보였습니다.
또한 ESM-2는 구조 예측 벤치마크에서도 다른 단백질 언어 모델을 능가합니다. 이러한 성능 향상은 대규모 언어 모델링 분야에서 확립된 패턴과 일치합니다.
ESM-2의 규모가 커질수록 언어 모델링의 정확도가 크게 향상되는 것을 볼 수 있습니다.
SMFold와 AlphaFold2의 주요 차이점은 ESMFold가 언어 모델 표현을 사용하므로 명시적인 상동 시퀀스(MSA 형식)가 입력으로 필요하지 않다는 것입니다.
ESMFold는 MSA를 처리하는 계산 비용이 많이 드는 네트워크 모듈을 시퀀스를 처리하는 Transformer 모듈로 대체하여 AlphaFold2의 Evoformer를 단순화합니다. 이러한 단순화는 ESMFold가 MSA 기반 모델보다 훨씬 빠르다는 것을 의미합니다.
접힌 백본의 출력은 최종 원자 수준 구조 및 예측 신뢰도 출력을 담당하는 구조 모듈에 의해 처리됩니다.
연구원들은 CAMEO(2022년 4월~2022년 6월) 및 CASP14(2020년 5월) 테스트 세트에서 ESMFold를 AlphaFold2 및 RoseTTAFold와 비교했습니다.
단일 시퀀스만 입력할 경우 ESMFold는 Alphafold 2보다 훨씬 더 나은 성능을 발휘합니다.
그리고 전체 파이프라인을 사용할 때 AlphaFold2는 CAMEO와 CASP14에서 각각 88.3과 84.7을 달성했습니다. ESMFold는 평균 TM 점수 82.0으로 CAMEO의 RoseTTAfold와 비슷한 정확도를 달성했습니다.
연구자들은 진화적으로 다양한 단백질 서열의 대규모 데이터베이스에서 훈련된 비지도 학습을 목표로 하는 언어 모델이 원자 수준 분해능에서 단백질 구조를 예측할 수 있음을 발견했습니다.
언어 모델의 매개변수를 15B로 확장하면 규모가 단백질 구조 학습에 미치는 영향을 체계적으로 연구할 수 있습니다.
우리는 단백질 구조 예측의 비선형 곡선이 모델 크기의 함수임을 확인하고 언어 모델이 시퀀스를 얼마나 잘 이해하는지와 그 구조 예측 사이의 강한 연관성을 관찰합니다.
ESM-2 시리즈의 모델은 현재까지 훈련된 가장 큰 단백질 언어 모델이며, 최근 개발된 가장 큰 텍스트 모델보다 매개변수가 10배 더 적습니다.
게다가 ESM-2는 이전 모델에 비해 매우 크게 개선되었습니다. 150M 매개변수에서도 ESM-2는 650M 매개변수에서 ESM-1 세대 언어 모델보다 더 정확한 구조 지도를 캡처합니다.
연구원들은 ESMFold 성능의 가장 큰 동인은 언어 모델이라고 밝혔습니다. 언어 모델의 복잡성과 구조 예측의 정확성 사이에는 강한 연관성이 있기 때문에 ESM-2가 단백질 서열을 더 잘 이해할 수 있을 때 현재 최첨단 모델에 필적하는 예측을 달성할 수 있다는 것을 발견했습니다.
ESMFold는 정확한 원자 해상도 구조 예측을 얻었으며 추론 시간은 AlphaFold2보다 훨씬 빠릅니다.
실제로는 속도 이점이 훨씬 더 큽니다. ESMFold는 MSA를 구성하기 위해 진화적으로 관련된 서열을 검색할 필요가 없기 때문입니다.
검색 시간을 줄이는 더 빠른 방법이 있지만 아무리 줄여도 검색 시간이 매우 길어질 수 있습니다.
추론 시간이 크게 단축되어 얻는 이점은 자명합니다. 속도가 향상되면 대규모 메타게놈 서열 데이터베이스의 구조적 공간을 매핑하는 것이 가능해집니다.
원위 상동성과 보존을 식별하는 구조 기반 도구 외에도 ESMFold를 사용한 빠르고 정확한 구조 예측은 대규모의 새로운 서열 컬렉션의 구조적 및 기능적 분석에서 중요한 역할을 할 수 있습니다.
제한된 시간 내에 수백만 개의 예측 구조에 접근하면 천연 단백질의 폭과 다양성에 대한 새로운 통찰력을 발견하고 완전히 새로운 단백질 구조와 단백질 기능을 발견하는 데 도움이 됩니다.
이 글의 공동저자는 Meta AI의 Zeming Lin입니다.
개인 홈페이지에 따르면 Zeming은 뉴욕대학교에서 박사학위를 취득하고 Meta AI에서 연구엔지니어(방문)로 근무하며 주로 백엔드 인프라 작업을 담당했다고 합니다.
그는 버지니아 대학교에서 학사 및 석사 학위를 모두 취득했으며, Qi Yanjun과 함께 기계 학습 응용 분야, 특히 단백질 구조 예측 분야를 연구했습니다.
제 관심분야는 딥러닝, 구조예측, 정보생물학입니다.
위 내용은 0보다 빠르다! Meta는 AlphaFold2를 분쇄하기 위해 150억 개의 매개변수를 갖춘 대규모 단백질 모델을 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!