Editor | 마른 잎 나비
대규모 언어 모델은 생물학과 화학을 이해하는 과학자의 능력을 크게 향상시켰지만 구조 기반 약물 발견, 양자 화학 및 구조 생물학에 대한 신뢰할 수 있는 방법은 거의 남아 있지 않습니다. 대규모 언어 모델에는 정확한 생체분자-리간드 상호작용 데이터 세트가 시급히 필요합니다.
이 문제를 해결하기 위해 뮌헨 헬름홀츠 연구 센터 생물학 연구소와 뮌헨 기술 대학의 연구원들이 MISATO를 제안했습니다. 이는 소분자의 양자 역학(QM) 특성과 약 20,000개의 실험적 단백질-리간드 복합체의 관련 분자 역학(MD) 시뮬레이션 및 실험 데이터의 광범위한 검증을 결합한 데이터 세트입니다.
기존 실험 구조에서 시작하여 연구자들은 반경험적 양자역학을 사용하여 이러한 구조를 체계적으로 개선했습니다. 여기에는 순수의 수많은 단백질-리간드 복합체에 대한 분자 역학 시뮬레이션이 포함되며 축적 시간은 170마이크로초를 초과합니다.
팀에서는 이 데이터 세트를 사용하여 향상된 정확도를 보여주는 기계 학습(ML) 기준 모델의 예를 제공합니다. 기계 학습 전문가에게 신약 발견을 위한 차세대 인공 지능 모델을 구현할 수 있는 쉬운 진입점을 제공합니다.
이 연구의 제목은 "MISATO: 구조 기반 약물 발견을 위한 단백질-리간드 복합체의 기계 학습 데이터 세트"이며 2024년 5월 10일 "Nature Computational Science"에 게재되었습니다.
최근 AI 예측 기술은 과학 분야에 혁명을 일으켰습니다. 예를 들어 AlphaFold는 단백질 구조를 정확하게 예측할 수 있습니다. 구조 기반 약물 발견은 여전히 큰 과제로 남아 있지만 이 분야에서 AI를 적용하는 방법은 여전히 얕습니다. 현재 방법은 정확성, 계산 비용, 실험적 의존성과 같은 문제에 직면해 있으며 대부분 간단한 솔루션과 1차원 데이터 처리에 중점을 둡니다. 3차원 단백질-리간드 복합체의 복잡성은 간과되어 왔습니다.
다양한 데이터베이스가 존재하지만 데이터 양의 한계와 열역학적 정보 부족으로 인해 약물 발견을 향상시키는 AI 모델은 없습니다. 알파폴드가 단백질 구조 예측 분야에서 이룬 성과와 달리 AI 모델 역시 생체분자 분석과 양자화학 분야의 잠재력에 영향을 미치는 역학, 화학적 복잡성 등의 문제를 무시해 한계를 갖고 있다.
여기서 뮌헨 헬름홀츠 연구센터 구조생물학연구소와 뮌헨 공과대학 연구진은 실험적인 단백질-리간드 구조를 기반으로 한 단백질-리간드 구조 데이터베이스인 MISATO(Molecular Interactions Are Structurally Optimized)를 제안했습니다.
연구원들은 데이터베이스가 신약 발견 및 그 이상과 관련된 분야에서 모델을 더 효과적으로 훈련시키는 데 도움이 될 수 있음을 보여주었습니다. 여기에는 양자화학, 일반 구조 생물학, 생물정보학이 포함됩니다.
이 팀은 리간드 기하학의 정규화를 포함하여 양자 화학 기반 구조 관리 및 개선을 제공합니다. 연구원들은 시간 척도의 MD를 포함하여 누락된 동적 및 화학적 정보로 이 데이터베이스를 보강하여 특정 시스템의 일시적이고 신비한 상태를 감지할 수 있게 했습니다. 후자는 성공적인 약물 설계에 매우 중요합니다.
그래서 연구진은 물리적 매개변수를 최대한 활용하여 실험 데이터를 보완했습니다. 이는 AI 모델이 이 모든 정보를 암묵적으로 학습해야 하는 부담을 덜어주어 주요 학습 작업에 집중할 수 있게 해줍니다. MISATO 데이터베이스는 기계 학습 코드로 직접 가져올 수 있는 사용자 친화적인 형식을 제공합니다.
팀에서는 데이터 세트를 필터링하고 시각화하기 위한 다양한 전처리 스크립트도 제공합니다. 또한, 양자 화학적 특성(화학적 경도 및 전자 친화력) 계산, 결합 친화도 계산, 단백질 유연성 또는 유도된 적합 특성 예측을 위한 예시 AI 기본 모델이 제공되어 데이터를 단순화할 수 있습니다. 또한 QM, MD 및 AI 모델은 실험 데이터를 통해 광범위하게 검증되었습니다.
연구원들은 MISATO를 약물 발견 분야 전체에 도움이 되는 유익한 커뮤니티 프로젝트로 전환하기를 희망합니다.
논문 링크:https://www.nature.com/articles/s43588-024-00627-2
위 내용은 양자 특징과 20,000개의 분자 역학 시뮬레이션을 결합한 새로운 단백질-리간드 복합체 ML 데이터 세트가 Nature 하위 저널에 게재되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!