코넬, 캠브리지, EPFL 등의 연구자들이 Nature 하위 저널에 게재한 AI 저분자 약물 발견에 대한 '백과사전'-일체 포함-php.cn

코넬, 캠브리지, EPFL 등의 연구자들이 Nature 하위 저널에 게재한 AI 저분자 약물 발견에 대한 백과사전

저자 | 코넬 대학교 Du Yuanqi

Editor | ScienceAI

과학용 AI가 점점 더 주목을 받으면서 사람들은 AI가 어떻게 일련의 과학적 문제를 해결하고 다른 분야에서 성공적으로 참고할 수 있는지에 대해 더 많은 관심을 갖고 있습니다. 국가 유사한 분야.

AI 및 소분자 신약 발견은 가장 대표적이고 초기에 탐구된 분야 중 하나입니다. 분자 발견은 분자 구조의 이산적 특성으로 인해 매우 어려운 조합 최적화 문제이며, 동시에 검색된 분자의 특성을 검증하는 것도 매우 어렵습니다. 피드백을 제공하려면 비용이 많이 드는 실험, 최소한 시뮬레이션 계산, 양자 화학적 방법이 필요합니다.

머신러닝의 급속한 발전과 초기 탐색(간단하고 사용 가능한 최적화 목표 및 효과 측정 방법 구축 포함) 덕분에 조합 최적화, 검색, 샘플링 알고리즘(유전 알고리즘)을 비롯한 수많은 알고리즘이 개발되었습니다. , 몬테카를로 트리 탐색, 강화학습, 생성적 흐름 모델/GFlowNet, 마르코프 체인 몬테카를로 등) 및 연속 최적화 알고리즘, 베이지안 최적화, 그래디언트 기반 최적화 등 동시에 기존의 상대적으로 완전한 알고리즘 측정 벤치마크와 상대적으로 객관적이고 공정한 비교 방법도 기계 학습 알고리즘 개발을 위한 넓은 공간을 열었습니다.

최근 코넬대학교, 케임브리지대학교, 로잔공과대학교(EPFL) 연구진이 "Nature Machine Intelligence"에 "Machine learning-aided generative Molecular Design"이라는 제목의 리뷰 기사를 게재했습니다.

코넬, 캠브리지, EPFL 등의 연구자들이 Nature 하위 저널에 게재한 AI 저분자 약물 발견에 대한 백과사전

논문 링크: https://www.nature.com/articles/s42256-024-00843-5

이 리뷰에서는 생성 분자 설계에 기계 학습을 적용하는 방법을 검토합니다. 약물 발견 및 개발에는 특정 물리화학적 특성과 생물학적 활동을 충족하도록 분자를 최적화해야 합니다. 그러나 기존 방법은 비용이 많이 들고 검색 공간이 크고 불연속적인 최적화 기능으로 인해 실패하기 쉽습니다. 기계 학습은 분자 생성과 스크리닝 단계를 결합하여 초기 단계의 약물 발견 프로세스를 가속화합니다.

코넬, 캠브리지, EPFL 등의 연구자들이 Nature 하위 저널에 게재한 AI 저분자 약물 발견에 대한 백과사전

그림: 생성적 ML 지원 분자 설계 프로세스.

생성 분자 설계 작업

생성 분자 설계는 분산 학습과 목표 지향 생성이라는 두 가지 주요 패러다임으로 나눌 수 있으며, 목표 지향 생성은 조건부 생성과 분자 최적화로 더 나눌 수 있습니다. 각 방법의 적합성은 특정 작업과 관련된 데이터에 따라 다릅니다.

분배 학습(분포 학습)

분배 학습의 목표는 주어진 데이터 세트에서 분자의 확률 분포를 모델링하여 데이터의 분포를 설명하고 이를 통해 학습된 분포에서 새로운 분자를 샘플링하는 것입니다.

조건부 생성(속성 조건 생성)

속성 조건 생성: 텍스트 설명 또는 특정 속성의 값일 수 있는 특정 속성을 가진 구조를 생성합니다.
분자(하위)구조 조절 생성(분자(하위)구조 조절 생성): 부분 구조 설계, 스캐폴드 호핑, 링커 설계, 전체 구조 재설계(파일럿 최적화) 등 특정 구조적 제약이 있는 분자를 생성합니다. 또는 분자의 전체 조건부 생성(형태 생성).
Target-conditioning Generation(표적 조건 생성): 특정 질병 관련 생체 분자 표적에 대한 결합 친화도가 높은 분자를 생성하는 것을 목표로 합니다. 속성 조건 생성과 달리, 표적 조건 생성은 표적 구조에 대한 명시적 접근을 활용하여 직접적인 표적-리간드 상호작용을 통합함으로써 표적에 대한 리간드 분자의 친화성을 향상시킵니다.
표현형 조절 생성(표현형 조절 생성): 세포 기반 현미경이나 기타 생물검정 판독(예: 전사체 데이터)에서 표현형 지문을 학습하여 원하는 생물학 결과 분자로 세대를 안내하는 조절 신호를 제공하는 것과 관련됩니다.

분자 최적화는 약물 후보의 특성을 정제하여 안전성, 효능 및 약동학적 특성을 개선함으로써 약물 발견에서 핵심적인 역할을 합니다. 용해도, 생체 이용률 및 표적 친화성과 같은 약물 특성을 최적화하기 위해 후보 분자 구조를 약간 수정하여 치료 잠재력을 향상시키고 임상 종료점의 성공률을 높이는 과정을 포함합니다.

그림: 생성 작업, 생성 전략 및 분자 특성화에 대한 그림입니다.

분자 생성 과정

분자 생성은 다양한 조합 단위가 포함되는 복잡한 과정입니다. 아래 그림에 대표 작품을 나열하고 각 부분의 대표 단위를 소개합니다.

분자 표현

분자적으로 생성된 신경 구조를 개발할 때 먼저 기계가 읽을 수 있는 분자 구조의 입력 및 출력 표현을 결정해야 합니다. 입력 표현은 모델에 적절한 유도 편향을 주입하는 데 도움이 되는 반면, 출력 표현은 분자에 대한 최적화된 검색 공간을 결정합니다. 표현 유형은 생성 방법의 적용 가능성을 결정합니다. 예를 들어 이산 검색 알고리즘은 그래프 및 문자열과 같은 조합 표현에만 적용될 수 있습니다.

다양한 입력 표현이 연구되었지만 표현 유형과 이를 인코딩하는 신경 아키텍처 간의 균형은 아직 명확하지 않습니다. 분자 간의 표현 변환은 반드시 전단사적일 필요는 없습니다. 예를 들어 밀도 맵과 지문은 분자를 고유하게 식별할 수 없으며 이 사소하지 않은 매핑 문제를 해결하려면 추가 기술이 필요합니다. 일반적인 분자 표현에는 문자열, 2차원 위상 그래프, 3차원 기하학적 그래프가 포함됩니다.
- 문자열 기반 분자 구조: 일반적으로 SMILES(Simplified Molecular Input Line Entry System) 또는 SELFIES(Self-Referential Embedded Strings)와 같은 문자열로 인코딩됩니다. SMILES는 구문 규칙을 사용하여 분자를 나타내지만 문자열은 유효하지 않을 수 있습니다. SELFIES는 이러한 규칙을 수정하여 분자의 유효성을 결정합니다. 분자 문자열은 일반적으로 순환 네트워크 및 변환기 모델을 통해 시퀀스 데이터로 인코딩됩니다.
- 위상 및 기하학적 그래프를 기반으로 한 원자 및 결합: 일반적으로 위상 그래프에서 노드와 모서리로 표시됩니다. 그래프 신경망(GNN)은 그래프 구조의 분자 데이터를 모델링하고 인접한 노드를 기반으로 노드 및 에지 기능을 업데이트하는 데 자주 사용됩니다. 기하학적 GNN은 3D 정보가 사용 가능하고 관련성이 있는 경우 변환, 회전 불변 또는 등분산과 같은 3D 공간에서 애플리케이션 관련 대칭을 캡처하는 데 자주 사용됩니다.
표현 세분성은 생성 모델 설계의 또 다른 고려 사항입니다. 일반적으로 방법은 생성 중에 원자 또는 분자 조각을 기본 구성 요소로 활용합니다. 단편 기반 표현은 분자 구조를 원자 그룹을 포함하는 더 큰 단위로 정제하고 기능 그룹 식별과 같은 계층적 정보를 전달함으로써 전통적인 단편 기반 또는 약리단 약물 설계 접근법과 일치시킵니다.

생성 방법

심층 생성 모델은 학습 분포(분포 학습이라고도 함)에서 데이터와 샘플의 확률 분포를 추정하는 방법 클래스입니다. 여기에는 변형 자동 인코더, 생성적 적대 네트워크, 정규화 흐름, 자동 회귀 모델 및 확산 모델이 포함됩니다. 이러한 각 생성 방법에는 사용 사례, 장단점이 있으며 선택은 필요한 작업 및 데이터 특성에 따라 달라집니다.

세대 전략

세대 전략은 모델이 분자 구조를 출력하는 방식을 말하며 일반적으로 일회성 생성, 순차 생성 또는 반복 개선으로 나눌 수 있습니다.

원샷 생성: 원샷 생성은 모델의 단일 순방향 전달에서 완전한 분자 구조를 생성합니다. 이 접근법은 높은 정확도로 현실적이고 합리적인 분자 구조를 생성하는 데 종종 어려움을 겪습니다. 더욱이 일회성 생성은 생성된 구조의 정확성과 유효성을 보장하는 데 중요한 원자가 제약 조건과 같은 명시적인 제약 조건을 충족할 수 없는 경우가 많습니다.

순차 생성: 순차 생성은 일련의 단계를 통해 일반적으로 원자 또는 조각으로 분자 구조를 구축합니다. 원자가 제약 조건을 순차 생성에 쉽게 주입하여 생성된 분자의 품질을 향상시킬 수 있습니다. 그러나 순차 생성의 주요 제한 사항은 생성된 궤적의 순서를 훈련 중에 정의해야 하고 추론 속도가 느리다는 것입니다.

반복적 개선: 반복적 개선은 일련의 업데이트를 예측하여 예측을 조정하고 일회성 생성 방법의 어려움을 피합니다. 예를 들어, AlphaFold2의 순환 구조 모듈은 관련 분자 생성 전략에 영감을 준 접근 방식인 백본 프레임워크를 성공적으로 개선했습니다. 확산 모델링은 일련의 노이즈 감소 단계를 통해 새로운 데이터를 생성하는 일반적인 기술입니다. 현재 확산 모델은 형태 생성, 구조 기반 약물 설계, 링커 설계 등 다양한 분자 생성 문제에 적용되어 왔습니다.

최적화 전략

조합 최적화: 분자(그림 또는 문자열)의 조합 인코딩의 경우 조합 최적화 분야의 기술을 직접 적용할 수 있습니다.

지속적 최적화: 분자는 유클리드 공간의 점 구름 및 기하학적 지도 또는 연속 잠재 공간의 개별 데이터를 인코딩하는 심층 생성 모델과 같은 연속 영역에서 표현되거나 인코딩될 수 있습니다.

생성 기계 학습 모델 평가

생성 모델을 평가하려면 계산 평가와 실험적 검증이 필요합니다. 표준 지표에는 효율성, 독창성, 참신성 등이 포함됩니다. 빌드 성능을 완전히 평가하려면 모델을 평가할 때 여러 지표를 고려해야 합니다.

실험적 검증

생성된 분자는 주로 계산 기여에 초점을 맞춘 기존 연구와 달리 습식 실험을 통해 명시적으로 검증되어야 합니다. 생성 모델에는 약점이 있지만 예측과 실험 사이의 단절은 이러한 검증을 수행하는 데 필요한 전문 지식, 비용 및 긴 테스트 주기로 인해 발생합니다.

모델 법칙 생성

실험적 검증을 보고하는 대부분의 연구는 SMILES를 운영 개체로 사용하여 RNN 및/또는 VAE를 사용합니다. 우리는 네 가지 주요 관찰을 요약합니다:
1. SMILES는 제한된 3D 정보를 캡처하지만 분산 학습 및 소규모 데이터 세트의 미세 조정에 적합한 효율적인 표현 역할을 합니다.
2. 실험적으로 검증된 많은 연구 대상은 ChEMBL과 같은 인기 있는 오픈 소스 데이터 세트의 일반적인 대상인 키나제입니다.
3. 대부분의 목표 지향 방법은 리간드 기반 및 구조 기반 약물 설계를 포함한 최적화 알고리즘으로 강화 학습(단독 또는 구성 요소)을 사용합니다.
4. AlphaFold 예측 구조는 구조 생성 약물 설계에 성공적으로 사용될 수 있습니다.
미래 방향

기계 학습 알고리즘이 저분자 약물 발견에 희망을 가져왔지만, 여전히 직면해야 할 도전과 기회가 더 많습니다.

도전
1. 배포되지 않은 세대: 알려진 화학물질은 화학물질 공간의 작은 부분만을 차지합니다. 심층 생성 모델은 훈련 분포 외부의 분자를 제안할 수 있지만 그것이 합리적인지 확인해야 합니다.
2. 비현실적인 문제 공식화: 정확한 문제 공식화는 실제 약물 발견에 적용할 수 있는 모델을 개발하는 데 매우 중요합니다. 종종 간과되는 근본적인 측면에는 구조 역학, 물의 역할, 엔트로피 기여 등이 포함되며, 오라클 호출에 대한 무제한 액세스와 같은 가정은 종종 잘못 당연하게 받아들여집니다. 이는 샘플 효율성 문제를 포함하며, 최근 연구는 제한된 오라클 예산 하에서 효율적인 목표 지향 생성을 향한 진전을 이루었습니다.
3. 저충실도 오라클: 약물 발견 관련 차원에 대한 효율적인 점수 설계는 여전히 어렵기 때문에 산업 환경에서 생성 모델을 배포하는 데 병목 현상이 발생합니다. 예를 들어 높은 처리량의 바인딩 선호도 예측은 데이터 기반 및 물리학 기반 워크플로에서 부정확한 경우가 많습니다. 대체 고정밀 오라클이 존재하지만 계산 요구 사항으로 인해 확장성이 제한됩니다. 또한, 주석이 달린 고품질 데이터에 접근할 수 없다는 점도 높은 정확성과 관리성을 갖춘 AI 오라클을 개발하는 데 걸림돌이 되었습니다.
4. 균일한 평가 프로토콜의 부족: 약물 후보의 품질을 평가하는 데 사용되는 평가 프로토콜은 좋은 약이 무엇인지 정의하는 기준과 밀접하게 연결되어 있습니다. ML 커뮤니티에서 일반적으로 사용하는 계산하기 쉬운 물리화학적 설명자는 의심스럽고 확실히 성능을 완전히 반영하지 않습니다. 생성적 분자 설계와 가상 스크리닝 간의 엄격한 비교도 덜 일반적입니다.
5. 대규모 연구 및 벤치마킹 부족: 많은 ML 방법이 개발되었지만 많은 중요한 작업에서 다양한 모델 유형에 대한 공정한 벤치마킹 결과가 없습니다. 예를 들어, 사용 가능한 데이터의 일부만 훈련에 사용되어 모델의 확장성에 대한 이해가 제한되었습니다. 최근 벤치마크는 계산 평가 프로토콜을 표준화하는 데 중요한 기여를 합니다.
6. 해석 가능성 부족: 해석 가능성은 분자 생성 모델에서 중요하지만 아직 탐구되지 않은 영역입니다. 예를 들어, 생성 또는 최적화 프로세스가 분자를 구축하는 방법에 대한 통찰력을 통해 의약화학자가 해석할 수 있는 화학적 규칙을 생성할 수 있습니다. 생성 모델은 종종 의약 화학자에게 아이디어를 제출하는 데 사용되며 합성 장벽으로 인해 모든 생성 설계를 테스트할 가능성이 배제되기 때문에 이는 소분자 분야에서 특히 중요합니다.
기회
1. 소분자 설계 이상의 응용: 여기에서 논의된 방법은 다당류, 단백질(특히 항체), 핵산, 결정 구조 및 중합체와 같은 다른 복잡한 구조 물질의 설계에 더 광범위하게 응용될 수 있습니다.
2. 대형 언어 모델은 텍스트 기반 발견과 행위자로서의 의사 결정을 통해 분자 설계에 혁명을 일으킬 수 있는 잠재력을 보여 주며, 과학 문헌을 포함한 방대한 양의 교육 데이터를 통해 활성화됩니다. 또한, 분자 구조에 맞게 맞춤화되거나 미세 조정된 모델은 연구자들에게 자연어 처리 분야의 확립된 발전을 활용할 수 있는 추가 기회를 제공합니다.
3. 약물 개발의 후기 단계: 분자 설계/최적화는 약물 발견의 초기 단계를 차지합니다. 그러나 제한된 효능, 열악한 ADME/T(흡수, 분포, 대사, 배설 및 독성) 특성 및 안전성 문제로 인한 지연 실패는 약물 개발 파이프라인의 문제점입니다. 제한적이지만 임상 데이터를 설계 파이프라인에 통합하는 것은 다운스트림 성공률을 향상시키는 유망한 방향입니다.
4. 집중 모델 목적: 약물 발견 파이프라인은 제약 회사가 수년간 경험하고 배운 교훈의 결과입니다. ML 연구자는 순수 순순한 모델을 설계하는 것(특히 심층 표현 기능이 부족한 경우)을 넘어 실제 제약 조건과 일치하면서 다년간의 프로세스에 걸쳐 특정 단계를 개선하는 데 초점을 맞춘 모델을 설계해야 합니다.
5. 자동화된 실험실: ML용으로 설계된 분자에 대한 피드백을 제공하기 위한 높은 처리량의 실험에 대한 필요성이 증가함에 따라 설계 – 제조 – 테스트 – 분석 주기를 가속화하기 위한 자동화된 실험실에 점점 더 많은 관심이 집중되고 있습니다.
저자: Du Yuanqi, 코넬 대학교 컴퓨터 과학과 박사 과정 2년차 그의 주요 연구 관심 분야는 기하학적 심층 학습, 확률 모델, 샘플링, 검색, 최적화 문제, 해석 가능성 및 현장 응용입니다. 자세한 내용은 https://yuanqidu.github.io/을 참조하세요.