Editor | Radish Skin
단백질 복합체 구조 예측은 약물 개발, 항체 설계 및 기타 응용 분야에서 중요한 역할을 합니다. 그러나 예측 정확도가 제한되어 있어 예측 결과가 실험 결과와 일치하지 않는 경우가 많습니다.
북경 대학교, 창핑 연구소, 하버드 대학교 연구팀은 딥 러닝 구조 예측 모델을 사용하여 추가 대규모 재교육이나 미세 조정 없이 다양한 형태와 소스의 실험적 제약 조건을 통합하는 일반 프레임워크인 ColabDock을 제안했습니다.
ColabDock은 AlphaFold2를 구조 예측 모델로 사용하여 HADDOCK 및 ClusPro보다 성능이 뛰어납니다. 시뮬레이션된 잔류물 및 표면 제약 조건을 사용한 복잡한 구조 예측뿐만 아니라 이러한 방식의 NMR 화학적 이동 섭동 및 공유 라벨링을 사용한 구조 예측에서도 성능이 뛰어납니다.
또한 인터페이스 스캔 한계를 시뮬레이션하여 항체-항원 인터페이스 예측에 도움이 될 수 있습니다.
이 연구의 제목은 "ColabDock을 사용한 실험적 구속을 사용한 단백질-단백질 도킹의 통합 구조 예측"이며 2024년 8월 5일 "Nature Machine Intelligence"에 게재되었습니다.
단백질 도킹은 생물학적 메커니즘을 이해하는 데 중요한 구조적 정보를 제공합니다. 단백질 구조 예측에서 심층 모델이 빠르게 발전했지만 대부분의 모델은 프리 도킹 방식으로 예측을 수행하므로 실험 제약 조건과 예측 구조 간에 불일치가 발생할 수 있습니다.
이 문제를 해결하기 위해 북경 대학교, 창핑 연구소 및 기타 기관의 연구팀은 제한된 복잡한 형태 예측을 위한 일반적인 프레임워크인 ColabDock을 제안했습니다. ColabDock은 희소 실험 제약 프레임에 따라 안내되는 일반적인 단백질-단백질 도킹입니다.
기울기 역전파를 통해 이 방법은 실험적으로 제한된 사전 변수와 데이터 기반 단백질 구조 예측 모델의 에너지 환경을 효과적으로 통합하여 제약 조건의 충돌이나 모호성을 허용하면서 두 가지를 모두 만족하는 형태를 자동으로 검색합니다.
ColabDock은 추가적인 재교육이나 미세 조정 없이 다양한 형태와 실험 제약 조건의 소스를 활용할 수 있습니다.
프레임워크에는 생성 단계와 예측 단계의 두 단계가 있습니다.
ColabDock은 생성 단계에서 AlphaFold2를 기반으로 개발된 단백질 디자인 프레임워크인 ColabDesign을 사용합니다. 입력 시퀀스 프로파일은 pLDDT 및 pAE 측정을 최대화하는 동시에 주어진 실험 제약 조건 및 템플릿을 기반으로 복잡한 구조를 생성하도록 구조 예측 모델을 안내하기 위해 로짓 공간에서 최적화됩니다.
예측 단계에서는 생성된 복잡한 구조와 주어진 템플릿을 기반으로 구조를 예측합니다. ColabDock은 각 대상에 대해 여러 번 실행을 수행하고 다양한 형태를 생성합니다. 최종 형태는 순위가 매겨진 SVM(Support Vector Machine) 알고리즘에 의해 선택되었습니다.
강력한 성능
연구원들은 개념 증명으로 ColabDock의 구조 예측 모델로 AlphaFold2를 채택했습니다. 물론 여기에서는 RoseTTAFold2 및 AF-Multimer와 같은 다른 데이터 기반 딥 러닝 모델도 사용할 수 있습니다.
연구원들은 합성 데이터 세트와 NMR 화학적 이동 섭동(CSP), 공유 라벨링(CL), 시뮬레이션된 심층 돌연변이 스캐닝(DMS)을 포함한 여러 유형의 실험 제약 조건을 대상으로 ColabDock을 테스트했습니다.
그림: 검증 세트에 대한 ColabDock의 성능. (출처: Paper)
ColabDock은 1v1 제약 조건과 MvN 제약 조건이라는 두 가지 유형의 제약 조건을 평가합니다. 전자는 잔류물 수준에 있으며 예에는 XL-MS의 제약 조건이 포함됩니다. 후자는 인터페이스 수준에 있으며 NMR 및 CL 실험과 관련이 있습니다.
합성 데이터 세트에 대한 테스트 결과는 ColabDock이 만족스러운 성능을 달성한 것으로 나타났습니다. 또한 예상대로 제약 조건 수가 증가할수록 ColabDock의 성능이 향상됩니다.
제약 조건이 거의 없는 경우에도 ColabDock은 벤치마크 데이터 세트 및 동일한 프레임 설정에서 AF-Multimer보다 성능이 뛰어나며, 더 많은 제약 조건이 제공되면 더 적은 수의 형태로 수렴하여 추가 정보의 효과적인 적용을 보여줍니다.
그림: 벤치마크 세트에서 ColabDock, HADDOCK 및 ClusPro를 비교합니다. (출처: 종이)
与 HADDOCK 和 ClusPro 相比,当约束质量较高时,ColabDock 的表现更为突出。在两个实验数据集上,无论提供的约束数量和质量如何,ColabDock 的表现仍然优于 HADDOCK 和 ClusPro。
图示:ColabDock 在 CSP 集上的性能及约束分析。(来源:论文)
最后,研究人员在抗体-抗原数据集上评估了不同对接方法的性能。ColabDock 预测的中等或更高质量结构的比例远高于 HADDOCK 和 ClusPro。
图示:ColabDock、HADDOCK 和 ClusPro 在抗体-抗原基准集上的比较。(来源:论文)
这表明 ColabDock 在抗体设计方面具有潜在的应用价值。并且,在新发布的无偏数据集上,ColabDock 仍然表现出与 AF-Multimer 相当甚至更好的性能。
局限性与结语
ColabDock 也存在一些局限性。目前,ColabDock 只能接受距离小于 22 Å 的限制,这是由 AlphaFold2 中距离图的上限决定的。这一限制使得该模型仅适用于一小部分 XL-MS 试剂。
如果没有基于片段的优化,ColabDock 只能在 NVIDIA A100 图形处理单元 (GPU) 上处理少于 1,200 个残基的复合物,因为内存有限。
此外,该方法可能非常耗时,尤其是对于大型蛋白质复合物。使用 AlphaFold2 的 bfloat16 浮点格式版本有望帮助节省内存并加速计算。
相信未来,研究人员迭代优化之后,作为一个统一的框架,ColabDock 必将能够帮助弥合实验和计算蛋白质科学之间的差距。
论文链接:https://www.nature.com/articles/s42256-024-00873-z
위 내용은 Nature 하위 저널, 북경대학교 팀의 일반 AI 프레임워크는 단백질-단백질 도킹에 대한 포괄적인 구조 예측을 수행하여 실험과 계산 사이의 격차를 해소합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!