편집자 | ScienceAI
최근 중국과학원 컴퓨터 기술 연구소 장하이창이 이끄는 연구팀은 단백질을 공동 설계하기 위해 CarbonNovo를 제안했습니다. 백본 구조와 시퀀스를 엔드투엔드 방식으로 제공합니다.
이 연구는 기계 학습 컨퍼런스 ICML 2024에서 "CarbonNovo: 통합 에너지 기반 모델을 사용한 단백질 구조 및 서열의 공동 설계"라는 제목으로 발표되었습니다.
배경 소개
단백질은 생물학적 기능에 중요한 거대분자입니다. De novo 단백질 디자인은 완전히 새로운 단백질을 생성하는 것을 목표로 하며 약물 개발 및 효소 공학에 폭넓게 적용됩니다.
최근 몇 년 동안 AI 기반 단백질 드 노보 디자인이 빠르게 발전하여 항체 디자인, 소형 단백질 약물 디자인 등의 분야에서 성공적으로 활용되고 있으며, 기존 디자인 방법에 비해 디자인 성공률과 효율성이 크게 향상되었습니다.
AI 단백질 디자인은 최근 몇 년 동안 두 가지 주요 기술 혁신의 혜택을 받았습니다.
첫 번째는 단백질 구조 예측 분야의 AlphaFold2 모델로, 단백질 컴퓨팅 분야에 기본 신경망 모델 아키텍처와 단백질 서열을 제공합니다. 단백질 설계 및 구조 표현 방법은 물론 고급 훈련 전략(증류 훈련, end-to-end 훈련) 및 기타 기술 포함
둘째, 텍스트, 이미지 및 비디오 분야에서 AIGC의 급속한 발전 세대는 단백질 설계를 위한 성숙한 세대 모델을 제공합니다(예: DDPM, SDE, Flow Matching, Bayesian Flow Network 등). RFDiffusion, Chroma 등 대표적인 단백질 설계 모델의 주요 아이디어는 이 두 기술을 통합하고 단백질 서열 및 구조 표현 네트워크를 AI 기반 생성 모델 프레임워크에 내장하는 것입니다.
De novo 단백질 디자인은 주로 단백질 백본 구조 디자인과 서열 디자인의 두 단계로 구성됩니다(그림 1). 따라서 현재 주류 모델은 일반적으로 "2단계" 프레임워크를 채택합니다. 학습 과정에서 구조 설계 모듈과 시퀀스 설계 모듈이 추론 과정에서 별도로 학습되고, 메인 체인 구조가 먼저 생성된 다음 최적이 됩니다. 메인 체인 구조가 생성됩니다. 대표적으로 RFDiffusion과 ProteinMPNN 두 가지 소프트웨어를 현장에서 사용하여 주쇄 구조와 서열을 차례로 생성합니다.
새로운 단백질 디자인을 위한 "2단계" 프레임워크에는 고유한 한계가 있습니다.
CarbonNovo는 구조와 서열의 end-to-end 공동 설계를 수행합니다
단백질 설계를 위한 "2단계" 프레임워크의 한계에 대응하여 컴퓨팅 기술 연구소의 Zhang Haicang이 이끄는 연구팀은 중국과학원은 엔드-투-엔드 방식으로 단백질 주쇄 구조를 공동으로 설계하기 위해 CarbonNovo를 제안했습니다. 이 논문은 최근 머신러닝 컨퍼런스 ICML 2024에서 발표되었습니다.
그림 2: CarbonNovo는 단백질 구조와 서열을 처음부터 끝까지 생성합니다. (출처: 논문)
CarbonNovo의 주요 기여는 다음과 같이 요약됩니다.
단백질 구조 서열의 공동 에너지 모델
고전적인 물리적 모델에서 천연 단백질 형태는 상대적으로 낮은 자유 에너지를 가지며, 이는 단백질 구조 예측 및 설계에 대한 일반적인 가정이기도 합니다. 이를 바탕으로 CarbonNovo는 단백질 구조와 서열의 결합 에너지 모델을 확립했습니다.
그림 2는 CarbonNovo의 구체적인 생성 과정을 보여줍니다.
단백질 구조 서열 생성을 위한 CarbonNovo의 성능 평가
논문은 새로운 단백질 디자인에서 CarbonNovo의 성능을 완전히 평가하기 위해 다양한 지표를 사용합니다(그림 3). 예를 들어 접힘성, 다양성, 신규성은 현장에서 일반적으로 사용되는 평가 지표입니다. 또한 본 논문에서는 언어 모델 하의 Rosetta 에너지와 우도 확률(Sequence Plausibility)도 평가 지표로 사용합니다.
CarbonNovo는 RFdiffusion, Chroma, Genie, FrameDiff 및 FrameFlow와 같은 현재의 주류 "2단계" 디자인 모델과 비교됩니다. CarbonNovo는 가장 중요한 접힘성 지표에서 모든 기준 방법을 크게 능가하며, 다른 지표에서도 기준 방법을 크게 초과하거나 동등합니다.
서열과 구조를 공동으로 설계하는 데 있어 CarbonNovo의 장점을 입증하기 위해 저자는 ProteinMPNN을 사용하여 서열을 생성한 결과도 비교했습니다(그림 3 a-c). 공동 설계 모델이 더 일치하는 단백질 백본 구조 및 서열을 설계할 수 있음을 관찰할 수 있습니다.
저자는 다양한 길이의 단백질 디자인에 대한 CarbonNovo의 성능을 추가로 평가했습니다(그림 4). 더 짧은 단백질(예: 길이 100)을 설계할 때 모델은 동일하게 잘 수행됩니다. 단백질 길이가 증가함에 따라 CarbonNovo의 설계 성능은 "2단계" 설계 모델보다 훨씬 더 좋습니다.
절제 실험
저자는 CarbonNovo 성능에 대한 주요 구성 요소의 상대적 기여도를 평가하기 위해 여러 절제 모델을 교육했습니다(그림 5). 언어 모델, 시퀀스 설계 모듈 및 보조 훈련 손실은 모두 CarbonNovo의 성능에 기여합니다. 그 중 언어 모델의 도입이 가장 큰 기여를 보여줍니다. 또한, 에너지 기반 시퀀스 설계 모듈을 사용하면 자기회귀 모델에 비해 시퀀스 설계 성능을 크게 향상시킬 수 있습니다.
사례 연구: 단백질 구조 "보간"
이미지 생성 분야에서 얼굴 이미지 보간/그라디언트는 생성 모델의 고전적인 응용 프로그램입니다. 저자들은 또한 단백질 구조 보간을 위해 CarbonNovo를 사용하려고 시도했습니다.
그림 5는 잠재 공간에서 모든 알파 나선 구조 벡터의 가중치가 점차 증가함에 따라 생성된 모든 베타 시트 구조가 점차 모든 알파 나선 구조로 전환되는 것을 보여줍니다.
이것은 현장에서 처음으로 단백질 구조에 대한 보간 실험이며, 이는 또한 CarbonNovo가 학습한 단백질 잠재 공간이 상대적으로 컴팩트하다는 것을 반영합니다.
결론
마지막으로 저자는 CarbonNovo가 주로 단백질 단량체 설계에 중점을 두지만, 펩타이드 설계, 항체 설계 등 단백질 복합체 설계 및 조건 설계로도 쉽게 확장할 수 있음을 지적했습니다.
저자팀은 현재 생물학적 실험팀과 협력하여 CarbonNovo가 설계한 단백질을 습식 실험을 통해 검증하고 있습니다.
저자가 활동하는 CarbonMatrix 팀은 오랫동안 AI 단백질 설계와 AI 약물 설계에 전념해 왔으며, 생물학적 거대분자 구조 설계 및 예측을 위한 통합 세대 모델을 구축하고 있습니다.
그의 연구 결과는 ICML, NeurIPS 등 최고의 머신러닝 학회와 Nature Machine Intelligence, Nature Communications 등 최고의 학술지에 게재되었습니다. 또한 현재 생물학 연구소와 협력하여 해당 분야의 AI 모델 산업화를 적극적으로 추진하고 있습니다. 약물 디자인.
위 내용은 중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!