MolE: 분자 그래프 학습을 위한 변환기 모델-웹3.0-php.cn

MolE: 분자 그래프 학습을 위한 변환기 모델

Barbara Streisand

풀어 주다： 2024-11-12 21:22:15

원래의

905명이 탐색했습니다.

분자 그래프 학습을 위한 변환기 기반 모델인 MolE를 소개합니다. MolE는 원자 식별자와 그래프 연결을 입력 토큰으로 제공하여 분자 그래프와 직접 작동합니다. 원자 식별자는 다양한 원자 특성을 단일 정수로 해싱하여 계산되며, 그래프 연결성은 위상학적 거리 행렬로 제공됩니다. MolE는 이전에 그래프에도 적용되었던 Transformer를 기본 아키텍처로 사용합니다. 변환기의 성능은 주로 self-attention 메커니즘의 광범위한 사용에 기인합니다. 표준 변환기에서 입력 토큰은 쿼리, 키 및 값(Q,K,Vin {R}^{Ntimes d})에 내장되어 있으며 다음과 같이 self-attention을 계산하는 데 사용됩니다.

MolE: 분자 그래프 학습을 위한 변환기 모델

MolE는 분자 그래프용으로 특별히 설계된 변환기 모델입니다. 원자 식별자와 그래프 연결성을 각각 입력 토큰과 상대 위치 정보로 제공하여 그래프와 직접 작동합니다. 원자 식별자는 다양한 원자 속성을 단일 정수로 해싱하여 계산됩니다. 특히 이 해시에는 다음 정보가 포함되어 있습니다.

- 이웃한 중원자의 수,

- 이웃한 수소 원자의 수,

- 원자가에서 부착된 수소 수를 뺀 값,

- 원자 전하,

- 원자 질량,

-부속채 종류

- 및 링 멤버십.

원자 식별자(반경 0의 원자 환경이라고도 함)는 RDKit에 구현된 Morgan 알고리즘을 사용하여 계산되었습니다.

토큰 외에도 MolE는 분자 그래프에서 원자의 상대적 위치를 인코딩하므로 중요한 유도 편향인 그래프 연결 정보를 입력으로 사용합니다. 이 경우 그래프 연결성은 토폴로지 거리 행렬 d로 제공됩니다. 여기서 dij는 원자 i와 원자 j를 분리하는 결합에 대한 최단 경로의 길이에 해당합니다.

MolE는 이전에 그래프에도 적용되었던 Transformer를 기본 아키텍처로 사용합니다. 변환기의 성능은 주로 self-attention 메커니즘의 광범위한 사용에 기인합니다. 표준 변환기에서 입력 토큰은 다음과 같이 self-attention을 계산하는 데 사용되는 쿼리, 키 및 값(Q,K,Vin{R}^{Ntimes d})에 포함됩니다.

여기서 ({H}_{0}in {R}^{Ntimes d})는 self-attention 이후의 출력 은닉 벡터이고, (d)는 은닉 공간의 차원입니다.

변환기의 각 계층을 통해 위치 정보를 명시적으로 전달하기 위해 MolE는 DeBERTa의 분리된 self-attention을 사용합니다.

여기서 ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d})는 컨텍스트 쿼리, 토큰 정보가 포함된 키 및 값( 표준 self-attention에 사용됨) 및 ({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d})는 위치입니다. (j{{rm{th}}}}) 원자에 대한 (i{{{rm{th}}}}) 원자의 상대 위치를 인코딩하는 쿼리 및 키입니다. 풀린 주의를 사용하면 입력 원자의 순서와 관련하여 MolE가 변하지 않게 됩니다.

앞서 언급한 것처럼 자기 지도형 사전 학습은 레이블이 없는 대규모 데이터세트에서 레이블이 있는 작은 데이터세트로 정보를 효과적으로 전송할 수 있습니다. 여기서는 2단계 사전 훈련 전략을 제시합니다. 첫 번째 단계는 화학 구조 표현을 학습하기 위한 자기 감독 방식입니다. 이를 위해 우리는 각 원자가 15%의 확률로 무작위로 마스크되는 BERT와 유사한 접근 방식을 사용합니다. 이 중에서 선택된 토큰의 80%는 마스크 토큰으로 대체되고, 10%는 어휘의 무작위 토큰으로 대체됩니다. 10%는 변경되지 않습니다. BERT와 달리 예측 작업은 마스킹된 토큰의 동일성을 예측하는 것이 아니라 반경 2의 해당 원자 환경(또는 기능적 원자 환경)을 예측하는 것입니다. 즉, 마스킹된 원자에서 2개 이하의 결합으로 분리된 모든 원자를 의미합니다. . 입력(반경 0)과 레이블(반경 2)에 대해 서로 다른 토큰화 전략을 사용했으며 정보 유출을 피하기 위해 입력 토큰에는 인접한 원자의 중복 데이터가 포함되지 않는다는 점을 명심하는 것이 중요합니다. 이는 모델이 로컬 분자 특징을 학습하면서 이웃 원자로부터 정보를 집계하도록 장려합니다. MolE는 반경 2의 각 원자 환경에 사전 정의된 레이블이 있는 분류 작업을 통해 학습합니다. 이는 반경 4의 원자 환경 임베딩을 컨텍스트 원자(즉, 그 너머의 주변 원자) 임베딩과 일치시키는 작업인 컨텍스트 예측 접근 방식과 대조적입니다. 반경 4) 네거티브 샘플링을 통해. 두 번째 단계에서는 대규모 레이블이 지정된 데이터 세트를 사용하여 그래프 수준 지도 사전 학습을 사용합니다. Hu 등이 제안한 대로 노드 수준 및 그래프 수준 사전 훈련을 결합하면 최종 예측 성능을 향상시키는 로컬 및 전역 기능을 학습하는 데 도움이 됩니다. 사전 훈련 단계에 대한 자세한 내용은 방법 섹션에서 확인할 수 있습니다.

MolE는 ZINC 및 ExCAPE-DB의 최대 8억 4,200만 분자로 구성된 초대형 데이터베이스를 사용하여 사전 훈련되었으며, 자체 감독 방식(보조 손실 포함)을 사용한 후 ~456K 분자로 감독 사전 훈련을 수행했습니다(방법 섹션 참조). 자세한 내용). 우리는 일련의 다운스트림 작업에서 MolE를 미세 조정하여 분자 임베딩의 품질을 평가합니다. 이 경우 TDC(Therapeutic Data Commons) 벤치마크에 포함된 22개의 ADMET 작업 세트를 사용합니다. 이 벤치마크는 수백 개(예: 475개 화합물이 포함된 DILI)에서 수천 개에 이르는 데이터 세트에 대한 9개의 회귀 작업과 13개의 이진 분류 작업으로 구성됩니다. (예: ~13,000개의 화합물을 사용한 CYP 억제 작업) 이 벤치마크를 사용하면 얻을 수 있는 이점은

위 내용은 MolE: 분자 그래프 학습을 위한 변환기 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!