저자 | 코넬 대학교 Du Yuanqi
Editor | ScienceAI
과학용 AI가 점점 더 주목을 받으면서 사람들은 AI가 어떻게 일련의 과학적 문제를 해결하고 다른 분야에서 성공적으로 참고할 수 있는지에 대해 더 많은 관심을 갖고 있습니다. 국가 유사한 분야.
AI 및 소분자 신약 발견은 가장 대표적이고 초기에 탐구된 분야 중 하나입니다. 분자 발견은 분자 구조의 이산적 특성으로 인해 매우 어려운 조합 최적화 문제이며, 동시에 검색된 분자의 특성을 검증하는 것도 매우 어렵습니다. 피드백을 제공하려면 비용이 많이 드는 실험, 최소한 시뮬레이션 계산, 양자 화학적 방법이 필요합니다.
머신러닝의 급속한 발전과 초기 탐색(간단하고 사용 가능한 최적화 목표 및 효과 측정 방법 구축 포함) 덕분에 조합 최적화, 검색, 샘플링 알고리즘(유전 알고리즘)을 비롯한 수많은 알고리즘이 개발되었습니다. , 몬테카를로 트리 탐색, 강화학습, 생성적 흐름 모델/GFlowNet, 마르코프 체인 몬테카를로 등) 및 연속 최적화 알고리즘, 베이지안 최적화, 그래디언트 기반 최적화 등 동시에 기존의 상대적으로 완전한 알고리즘 측정 벤치마크와 상대적으로 객관적이고 공정한 비교 방법도 기계 학습 알고리즘 개발을 위한 넓은 공간을 열었습니다.
최근 코넬대학교, 케임브리지대학교, 로잔공과대학교(EPFL) 연구진이 "Nature Machine Intelligence"에 "Machine learning-aided generative Molecular Design"이라는 제목의 리뷰 기사를 게재했습니다.
논문 링크: https://www.nature.com/articles/s42256-024-00843-5
이 리뷰에서는 생성 분자 설계에 기계 학습을 적용하는 방법을 검토합니다. 약물 발견 및 개발에는 특정 물리화학적 특성과 생물학적 활동을 충족하도록 분자를 최적화해야 합니다. 그러나 기존 방법은 비용이 많이 들고 검색 공간이 크고 불연속적인 최적화 기능으로 인해 실패하기 쉽습니다. 기계 학습은 분자 생성과 스크리닝 단계를 결합하여 초기 단계의 약물 발견 프로세스를 가속화합니다.
그림: 생성적 ML 지원 분자 설계 프로세스.
생성 분자 설계 작업
생성 분자 설계는 분산 학습과 목표 지향 생성이라는 두 가지 주요 패러다임으로 나눌 수 있으며, 목표 지향 생성은 조건부 생성과 분자 최적화로 더 나눌 수 있습니다. 각 방법의 적합성은 특정 작업과 관련된 데이터에 따라 다릅니다.
분배 학습(분포 학습)
조건부 생성(속성 조건 생성)
분자 최적화는 약물 후보의 특성을 정제하여 안전성, 효능 및 약동학적 특성을 개선함으로써 약물 발견에서 핵심적인 역할을 합니다. 용해도, 생체 이용률 및 표적 친화성과 같은 약물 특성을 최적화하기 위해 후보 분자 구조를 약간 수정하여 치료 잠재력을 향상시키고 임상 종료점의 성공률을 높이는 과정을 포함합니다.
그림: 생성 작업, 생성 전략 및 분자 특성화에 대한 그림입니다.
분자 생성 과정
분자 생성은 다양한 조합 단위가 포함되는 복잡한 과정입니다. 아래 그림에 대표 작품을 나열하고 각 부분의 대표 단위를 소개합니다.
분자 표현
분자적으로 생성된 신경 구조를 개발할 때 먼저 기계가 읽을 수 있는 분자 구조의 입력 및 출력 표현을 결정해야 합니다. 입력 표현은 모델에 적절한 유도 편향을 주입하는 데 도움이 되는 반면, 출력 표현은 분자에 대한 최적화된 검색 공간을 결정합니다. 표현 유형은 생성 방법의 적용 가능성을 결정합니다. 예를 들어 이산 검색 알고리즘은 그래프 및 문자열과 같은 조합 표현에만 적용될 수 있습니다.
다양한 입력 표현이 연구되었지만 표현 유형과 이를 인코딩하는 신경 아키텍처 간의 균형은 아직 명확하지 않습니다. 분자 간의 표현 변환은 반드시 전단사적일 필요는 없습니다. 예를 들어 밀도 맵과 지문은 분자를 고유하게 식별할 수 없으며 이 사소하지 않은 매핑 문제를 해결하려면 추가 기술이 필요합니다. 일반적인 분자 표현에는 문자열, 2차원 위상 그래프, 3차원 기하학적 그래프가 포함됩니다.
표현 세분성은 생성 모델 설계의 또 다른 고려 사항입니다. 일반적으로 방법은 생성 중에 원자 또는 분자 조각을 기본 구성 요소로 활용합니다. 단편 기반 표현은 분자 구조를 원자 그룹을 포함하는 더 큰 단위로 정제하고 기능 그룹 식별과 같은 계층적 정보를 전달함으로써 전통적인 단편 기반 또는 약리단 약물 설계 접근법과 일치시킵니다.
생성 방법
심층 생성 모델은 학습 분포(분포 학습이라고도 함)에서 데이터와 샘플의 확률 분포를 추정하는 방법 클래스입니다. 여기에는 변형 자동 인코더, 생성적 적대 네트워크, 정규화 흐름, 자동 회귀 모델 및 확산 모델이 포함됩니다. 이러한 각 생성 방법에는 사용 사례, 장단점이 있으며 선택은 필요한 작업 및 데이터 특성에 따라 달라집니다.
세대 전략
세대 전략은 모델이 분자 구조를 출력하는 방식을 말하며 일반적으로 일회성 생성, 순차 생성 또는 반복 개선으로 나눌 수 있습니다.
원샷 생성: 원샷 생성은 모델의 단일 순방향 전달에서 완전한 분자 구조를 생성합니다. 이 접근법은 높은 정확도로 현실적이고 합리적인 분자 구조를 생성하는 데 종종 어려움을 겪습니다. 더욱이 일회성 생성은 생성된 구조의 정확성과 유효성을 보장하는 데 중요한 원자가 제약 조건과 같은 명시적인 제약 조건을 충족할 수 없는 경우가 많습니다.
순차 생성: 순차 생성은 일련의 단계를 통해 일반적으로 원자 또는 조각으로 분자 구조를 구축합니다. 원자가 제약 조건을 순차 생성에 쉽게 주입하여 생성된 분자의 품질을 향상시킬 수 있습니다. 그러나 순차 생성의 주요 제한 사항은 생성된 궤적의 순서를 훈련 중에 정의해야 하고 추론 속도가 느리다는 것입니다.
반복적 개선: 반복적 개선은 일련의 업데이트를 예측하여 예측을 조정하고 일회성 생성 방법의 어려움을 피합니다. 예를 들어, AlphaFold2의 순환 구조 모듈은 관련 분자 생성 전략에 영감을 준 접근 방식인 백본 프레임워크를 성공적으로 개선했습니다. 확산 모델링은 일련의 노이즈 감소 단계를 통해 새로운 데이터를 생성하는 일반적인 기술입니다. 현재 확산 모델은 형태 생성, 구조 기반 약물 설계, 링커 설계 등 다양한 분자 생성 문제에 적용되어 왔습니다.
최적화 전략
조합 최적화: 분자(그림 또는 문자열)의 조합 인코딩의 경우 조합 최적화 분야의 기술을 직접 적용할 수 있습니다.
지속적 최적화: 분자는 유클리드 공간의 점 구름 및 기하학적 지도 또는 연속 잠재 공간의 개별 데이터를 인코딩하는 심층 생성 모델과 같은 연속 영역에서 표현되거나 인코딩될 수 있습니다.
생성 기계 학습 모델 평가
생성 모델을 평가하려면 계산 평가와 실험적 검증이 필요합니다. 표준 지표에는 효율성, 독창성, 참신성 등이 포함됩니다. 빌드 성능을 완전히 평가하려면 모델을 평가할 때 여러 지표를 고려해야 합니다.
실험적 검증
생성된 분자는 주로 계산 기여에 초점을 맞춘 기존 연구와 달리 습식 실험을 통해 명시적으로 검증되어야 합니다. 생성 모델에는 약점이 있지만 예측과 실험 사이의 단절은 이러한 검증을 수행하는 데 필요한 전문 지식, 비용 및 긴 테스트 주기로 인해 발생합니다.
모델 법칙 생성
실험적 검증을 보고하는 대부분의 연구는 SMILES를 운영 개체로 사용하여 RNN 및/또는 VAE를 사용합니다. 우리는 네 가지 주요 관찰을 요약합니다:
미래 방향
기계 학습 알고리즘이 저분자 약물 발견에 희망을 가져왔지만, 여전히 직면해야 할 도전과 기회가 더 많습니다.
도전
기회
저자: Du Yuanqi, 코넬 대학교 컴퓨터 과학과 박사 과정 2년차 그의 주요 연구 관심 분야는 기하학적 심층 학습, 확률 모델, 샘플링, 검색, 최적화 문제, 해석 가능성 및 현장 응용입니다. 자세한 내용은 https://yuanqidu.github.io/을 참조하세요.
위 내용은 코넬, 캠브리지, EPFL 등의 연구자들이 Nature 하위 저널에 게재한 AI 저분자 약물 발견에 대한 '백과사전'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!