편집자 | 과학자들은 이러한 "열쇠"와 "자물쇠" 또는 단백질-리간드 상호작용 사이의 적합성을 예측하는 효율적인 방법을 찾고 있습니다.
그러나 전통적인 데이터 기반 방법은 리간드와 단백질 훈련 데이터 간의 상호 작용을 실제로 학습하는 대신 암기하는 "암기 학습"에 빠지는 경우가 많습니다.
최근 절강대학교와 중국과학원 연구팀은 이종 그래프 신경망을 사용하여 물리적 사전 지식을 통합하고 방정식 변환 공간에서 단백질-리간드 상호 작용을 특성화하는 EquiScore라는 새로운 채점 방법을 제안했습니다.
EquiScore는 다양한 데이터 확대 전략과 엄격한 중복 제거 체계를 사용하여 구축된 새로운 데이터 세트에 대해 교육을 받았습니다.
두 개의 대규모 외부 테스트 세트에서 EquiScore는 21개의 다른 방법과 비교하여 상위에 나타나기 시작했습니다. EquiScore를 다양한 도킹 방법과 함께 사용하면 이러한 도킹 방법의 스크리닝 기능을 효과적으로 향상시킬 수 있습니다. EquiScore는 또한 구조적으로 유사한 일련의 물질의 활성 순위를 매기는 작업에서도 우수한 성능을 발휘하여 납 화합물 최적화를 안내할 수 있는 잠재력을 보여주었습니다.
마지막으로 EquiScore의 다양한 해석 가능성 수준이 연구되었으며, 이는 구조 기반 약물 설계에 더 많은 통찰력을 제공할 수 있습니다.
이 연구의 제목은 "
물리적 사전 지식과 데이터 증대 모델링을 통합하여 일반적인 단백질-리간드 상호 작용 점수 측정"이며 2024년 6월 6일 "Nature Machine Intelligence"에 게재되었습니다.
논문 링크:
https://www.nature.com/articles/s42256-024-00849-z실험적인 단백질-리간드 상호 작용 데이터가 폭발적으로 증가하면서 기계 학습 기반 채점 방법이 상당한 발전을 이루었습니다.
머신러닝 모델의 용량이 증가함에 따라 전체 교육 데이터 세트를 기억할 수 있게 되었습니다. 동시에 훈련 데이터와 테스트 데이터 간의 데이터 유출 문제로 인해 해당 모델의 기능에 대해 지나치게 낙관적인 평가가 이루어집니다.
데이터 세트의 품질 외에도 기계 학습 기반 채점 방법의 성능에 영향을 미치는 또 다른 핵심 요소 리간드-단백질 상호작용에 대한 관련 물리적 사전 정보의 효과적인 통합입니다.
EquiScore의 아키텍처먼저 연구원들은 다양한 데이터 증대 전략을 사용하여 PDBscreen이라는 새로운 데이터 세트를 구축했습니다. 예를 들어, 네이티브에 가까운 리간드 결합 포즈를 사용하여 양성 샘플의 크기를 증폭하고 생성된 매우 기만적인 미끼를 사용하여 음성 샘플의 크기를 증폭합니다.
둘째, 새로운 유형의 노드와 에지, 정보 인식 주의 메커니즘을 도입하여 물리적 분자간 상호 작용에 대한 사전 정보를 통합할 수 있는 이종 그래프를 제안합니다.
그림: PDBscreen 데이터세트 구축을 위한 파이프라인. (출처: 논문)
geometric)와 화학 결합을 통한 구조 기반 모서리(Estructural)가 설정됩니다. 또한 연구원들은 분자간 상호 작용에 대한 사전 물리적 지식을 포함하기 위해 ProLIF에서 계산한 단백질-리간드 경험적 상호 작용 구성 요소(IFP)를 기반으로 한 에지 클래스를 E구조에 추가했습니다. 두 번째 단계에서는 임베딩 레이어를 사용하여 이종 그래프의 각 유형의 에지 및 노드에 대한 잠재 표현을 얻습니다. 이 체계는 명확한 물리적 의미를 지닌 다른 새로운 노드와 에지를 도입할 수 있으며 후속 표현 학습 모듈과 원활하게 통합될 수 있습니다. 모델의 등분산을 보장하면서 다양한 노드와 에지의 정보에 대한 귀납적 편향을 완전히 활용하기 위해 EquiScore 레이어는 정보 인식 주의 모듈, 노드 업데이트 모듈 및 에지 업데이트 모듈의 세 가지 하위 모듈로 구성됩니다. 정보 인식 주의 모듈은 (1) 등변 기하학적 정보, (2) 화학 구조 정보, (3) 단백질-리간드 경험적 상호 작용 구성 요소를 포함한 다양한 정보의 상호 작용을 해석할 수 있습니다. 연구원들은 생성된 EquiScore 모델의 성능을 평가했습니다. 가상 스크리닝(VS) 시나리오에서 EquiScore는 두 개의 외부 데이터 세트 DEKOIS2.0 및 DUD-E에서 보이지 않는 단백질에 대한 기존 21가지 채점 방법과 비교하여 지속적으로 상위 순위를 달성했습니다. 리드 최적화 시나리오에서 EquiScore는 8가지 방법 중 FEP+에 비해 낮은 순위 능력만 보여주었습니다. FEP+ 계산에는 훨씬 더 높은 계산 비용이 필요하다는 점을 고려하면 EquiScore는 속도와 정확성 사이에서 보다 균형 잡힌 이점을 보여줍니다. 또한 EquiScore는 다양한 도킹 방법으로 생성된 포즈에 적용할 때 강력한 재채점 기능을 나타내며, EquiScore 재채점을 사용하면 모든 평가 방법에서 VS 성능을 향상시킬 수 있는 것으로 나타났습니다. 마지막으로 연구자들은 모델의 해석 가능성을 분석한 결과 모델이 주요 분자간 상호 작용을 포착할 수 있음을 발견하여 모델의 합리성을 입증하고 합리적인 약물 설계에 유용한 단서를 제공했습니다. 단백질-리간드 상호작용에 대한 확실한 예측은 단백질의 생물학을 이해하고 미래 약물 치료에 미치는 영향을 판단할 수 있는 귀중한 기회를 제공할 것입니다. EquiScore는 인간의 건강과 질병에 대한 더 나은 이해에 기여하고 신약 발견을 촉진할 것입니다. 모델 성능 평가
위 내용은 'AI+물리학 사전 지식', 절강대학교 및 중국과학원 일반 단백질-리간드 상호작용 채점 방법 Nature 하위 저널에 게재의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!