중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

王林
풀어 주다: 2024-08-21 21:09:32
원래의
655명이 탐색했습니다.

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

편집자 | ScienceAI

저자 | 컴퓨터 기술 연구소 장하이창 팀

최근 중국과학원 컴퓨터 기술 연구소 장하이창이 이끄는 연구팀은 단백질을 공동 설계하기 위해 CarbonNovo를 제안했습니다. 백본 구조와 시퀀스를 엔드투엔드 방식으로 제공합니다.

이 연구는 기계 학습 컨퍼런스 ICML 2024에서 "CarbonNovo: 통합 에너지 기반 모델을 사용한 단백질 구조 및 서열의 공동 설계"라는 제목으로 발표되었습니다.

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

배경 소개

단백질은 생물학적 기능에 중요한 거대분자입니다. De novo 단백질 디자인은 완전히 새로운 단백질을 생성하는 것을 목표로 하며 약물 개발 및 효소 공학에 폭넓게 적용됩니다.

최근 몇 년 동안 AI 기반 단백질 드 노보 디자인이 빠르게 발전하여 항체 디자인, 소형 단백질 약물 디자인 등의 분야에서 성공적으로 활용되고 있으며, 기존 디자인 방법에 비해 디자인 성공률과 효율성이 크게 향상되었습니다.

AI 단백질 디자인은 최근 몇 년 동안 두 가지 주요 기술 혁신의 혜택을 받았습니다.

첫 번째는 단백질 구조 예측 분야의 AlphaFold2 모델로, 단백질 컴퓨팅 분야에 기본 신경망 모델 아키텍처와 단백질 서열을 제공합니다. 단백질 설계 및 구조 표현 방법은 물론 고급 훈련 전략(증류 훈련, end-to-end 훈련) 및 기타 기술 포함

둘째, 텍스트, 이미지 및 비디오 분야에서 AIGC의 급속한 발전 세대는 단백질 설계를 위한 성숙한 세대 모델을 제공합니다(예: DDPM, SDE, Flow Matching, Bayesian Flow Network 등). RFDiffusion, Chroma 등 대표적인 단백질 설계 모델의 주요 아이디어는 이 두 기술을 통합하고 단백질 서열 및 구조 표현 네트워크를 AI 기반 생성 모델 프레임워크에 내장하는 것입니다.

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

그림 1: 새로운 단백질 설계를 위한 "2단계" 프레임워크. (출처, 저자)

De novo 단백질 디자인은 주로 단백질 백본 구조 디자인과 서열 디자인의 두 단계로 구성됩니다(그림 1). 따라서 현재 주류 모델은 일반적으로 "2단계" 프레임워크를 채택합니다. 학습 과정에서 구조 설계 모듈과 시퀀스 설계 모듈이 추론 과정에서 별도로 학습되고, 메인 체인 구조가 먼저 생성된 다음 최적이 됩니다. 메인 체인 구조가 생성됩니다. 대표적으로 RFDiffusion과 ProteinMPNN 두 가지 소프트웨어를 현장에서 사용하여 주쇄 구조와 서열을 차례로 생성합니다.

새로운 단백질 디자인을 위한 "2단계" 프레임워크에는 고유한 한계가 있습니다.

(1) 시퀀스 디자인 모듈은 과적합의 위험에 직면합니다. 시퀀스 설계 모듈은 정확한 결정학적 구조에 대해 교육을 받는 반면, 추론 단계에서는 구조 모듈에 의해 생성된 구조에 잡음이 많고 정확도가 결정 구조와 일치하지 않습니다.
(2) 시퀀스 설계 모듈은 구조 설계 모듈과의 상호 작용이 부족하며, 설계 시퀀스는 생성된 구조를 더욱 최적화하기 위해 구조 생성 모듈에 피드백을 제공할 수 없습니다.

CarbonNovo는 구조와 서열의 end-to-end 공동 설계를 수행합니다

단백질 설계를 위한 "2단계" 프레임워크의 한계에 대응하여 컴퓨팅 기술 연구소의 Zhang Haicang이 이끄는 연구팀은 중국과학원은 엔드-투-엔드 방식으로 단백질 주쇄 구조를 공동으로 설계하기 위해 CarbonNovo를 제안했습니다. 이 논문은 최근 머신러닝 컨퍼런스 ICML 2024에서 발표되었습니다.

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

그림 2: CarbonNovo는 단백질 구조와 서열을 처음부터 끝까지 생성합니다. (출처: 논문)

CarbonNovo의 주요 기여는 다음과 같이 요약됩니다.

1) 주쇄 구조와 시퀀스를 end-to-end 방식으로 설계하기 위해 에너지 기반 발전 모델을 설계했습니다(그림 2). 이전의 구조-서열 결합 설계 모델은 주로 항체와 같은 특수 단백질 계열을 대상으로 했습니다. CarbonNovo는 모든 단백질 계열에 대한 최초의 구조-서열 결합 설계 모델입니다.
2) CarbonNovo는 네트워크 재활용 기술을 기반으로 대규모 천연 단백질 서열 데이터에 포함된 사전 정보를 활용하기 위해 단백질 구조 설계 작업에 최초로 단백질 언어 모델을 도입합니다.
3) CarbonNovo는 시퀀스 샘플링을 위한 다단계 학습 전략 및 이산 M-H Langevin 알고리즘과 같은 구조-시퀀스 결합 생성 모델의 학습 및 추론 효율성을 향상시키기 위해 여러 기술을 채택합니다.

단백질 구조 서열의 공동 에너지 모델

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

고전적인 물리적 모델에서 천연 단백질 형태는 상대적으로 낮은 자유 에너지를 가지며, 이는 단백질 구조 예측 및 설계에 대한 일반적인 가정이기도 합니다. 이를 바탕으로 CarbonNovo는 단백질 구조와 서열의 결합 에너지 모델을 확립했습니다.

1) SE(3) 공간의 확산 모델을 사용하여 주쇄 구조 에너지를 설명합니다. 훈련 목표 또는 추론 전략 측면에서 최근의 일부 연구에서는 확산 모델을 에너지 기반 모델로 통합했습니다.
CarbonNovo도 이를 기반으로 AI 모델의 에너지와 고전적 물리적 모델의 에너지를 연결합니다. 주류 확산 모델(예: FrameDiff 및 Genie)은 생성 네트워크로 IPA(Invariant Point Attention network)만 사용한다는 점에 유의해야 합니다. CarbonNovo는 AlphaFold2 모델에 삼각형 업데이트 네트워크를 도입했는데, 이는 이 작업의 혁신 중 하나이기도 합니다.
2) 상각 포츠 모델을 사용하여 주어진 주쇄 구조 하의 시퀀스 에너지를 설명합니다. 포츠(Potts) 모델은 단백질 구조 예측 분야에서 상동 서열의 공진화 신호를 학습하는 데 사용되는 고전적인 에너지 모델입니다. CarbonNovo는 학습된 구조적 표현을 사용하여 Potts 모델을 매개변수화하여 구조적 조건이 주어진 시퀀스 에너지 모델을 구축합니다.

그림 2는 CarbonNovo의 구체적인 생성 과정을 보여줍니다.

1) 확산 모델을 기반으로 현재 시간 단계의 주쇄 구조를 설계합니다.
2) 현재 메인 체인 구조를 고려하여 포츠 모델을 기반으로 가능한 시퀀스를 설계합니다.
3) 네트워크 재활용 메커니즘을 통해 중간 시퀀스의 언어 모델 표현이 구조 모듈로 반환되어 보다 일관된 시퀀스 구조를 생성하고 구조 모듈, 시퀀스 모듈 및 사전 훈련된 언어 모델의 통합을 달성합니다. .

단백질 구조 서열 생성을 위한 CarbonNovo의 성능 평가

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.
그림 3: CarbonNovo와 "2단계" 설계 모델 간의 성능 비교. (출처: 논문)

논문은 새로운 단백질 디자인에서 CarbonNovo의 성능을 완전히 평가하기 위해 다양한 지표를 사용합니다(그림 3). 예를 들어 접힘성, 다양성, 신규성은 현장에서 일반적으로 사용되는 평가 지표입니다. 또한 본 논문에서는 언어 모델 하의 ​​Rosetta 에너지와 우도 확률(Sequence Plausibility)도 평가 지표로 사용합니다.

CarbonNovo는 RFdiffusion, Chroma, Genie, FrameDiff 및 FrameFlow와 같은 현재의 주류 "2단계" 디자인 모델과 비교됩니다. CarbonNovo는 가장 중요한 접힘성 지표에서 모든 기준 방법을 크게 능가하며, 다른 지표에서도 기준 방법을 크게 초과하거나 동등합니다.

서열과 구조를 공동으로 설계하는 데 있어 CarbonNovo의 장점을 입증하기 위해 저자는 ProteinMPNN을 사용하여 서열을 생성한 결과도 비교했습니다(그림 3 a-c). 공동 설계 모델이 더 일치하는 단백질 백본 구조 및 서열을 설계할 수 있음을 관찰할 수 있습니다.


중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.
그림 4: 다양한 단백질 길이에서의 성능 비교. (출처: 논문)

저자는 다양한 길이의 단백질 디자인에 대한 CarbonNovo의 성능을 추가로 평가했습니다(그림 4). 더 짧은 단백질(예: 길이 100)을 설계할 때 모델은 동일하게 잘 수행됩니다. 단백질 길이가 증가함에 따라 CarbonNovo의 설계 성능은 "2단계" 설계 모델보다 훨씬 더 좋습니다.

절제 실험

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.
그림 5: 절제 실험 결과. (출처: 논문)

저자는 CarbonNovo 성능에 대한 주요 구성 요소의 상대적 기여도를 평가하기 위해 여러 절제 모델을 교육했습니다(그림 5). 언어 모델, 시퀀스 설계 모듈 및 보조 훈련 손실은 모두 CarbonNovo의 성능에 기여합니다. 그 중 언어 모델의 도입이 가장 큰 기여를 보여줍니다. 또한, 에너지 기반 시퀀스 설계 모듈을 사용하면 자기회귀 모델에 비해 시퀀스 설계 성능을 크게 향상시킬 수 있습니다.

사례 연구: 단백질 구조 "보간"

중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.

그림 5: 모든 베타 시트 구조에서 모든 알파 나선 구조로의 기울기. (출처: Paper)

이미지 생성 분야에서 얼굴 이미지 보간/그라디언트는 생성 모델의 고전적인 응용 프로그램입니다. 저자들은 또한 단백질 구조 보간을 위해 CarbonNovo를 사용하려고 시도했습니다.

그림 5는 잠재 공간에서 모든 알파 나선 구조 벡터의 가중치가 점차 증가함에 따라 생성된 모든 베타 시트 구조가 점차 모든 알파 나선 구조로 전환되는 것을 보여줍니다.

이것은 현장에서 처음으로 단백질 구조에 대한 보간 실험이며, 이는 또한 CarbonNovo가 학습한 단백질 잠재 공간이 상대적으로 컴팩트하다는 것을 반영합니다.

결론

마지막으로 저자는 CarbonNovo가 주로 단백질 단량체 설계에 중점을 두지만, 펩타이드 설계, 항체 설계 등 단백질 복합체 설계 및 조건 설계로도 쉽게 확장할 수 있음을 지적했습니다.

저자팀은 현재 생물학적 실험팀과 협력하여 CarbonNovo가 설계한 단백질을 습식 실험을 통해 검증하고 있습니다.

저자가 활동하는 CarbonMatrix 팀은 오랫동안 AI 단백질 설계와 AI 약물 설계에 전념해 왔으며, 생물학적 거대분자 구조 설계 및 예측을 위한 통합 세대 모델을 구축하고 있습니다.

그의 연구 결과는 ICML, NeurIPS 등 최고의 머신러닝 학회와 Nature Machine Intelligence, Nature Communications 등 최고의 학술지에 게재되었습니다. 또한 현재 생물학 연구소와 협력하여 해당 분야의 AI 모델 산업화를 적극적으로 추진하고 있습니다. 약물 디자인.

논문 링크: https://openreview.net/pdf?id=FSxTEvuFa7
코드 링크: https://github.com/zhanghaicang/carbonmatrix_public

위 내용은 중국과학원 컴퓨팅 기술 연구소(Institute of Computing Technology of the Chinese Academy of Sciences) 팀은 단백질 구조 및 서열의 AI 기반 엔드 투 엔드 드 노보 디자인인 CarbonNovo를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:jiqizhixin.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!