Editor | ScienceAI
Transformer와 같은 고급 시퀀스 모델을 사용하면 단일 단계 역합성 예측 문제가 생성물의 SMILES 표현에서 반응물의 SMILES 표현으로 변환 작업으로 변환되며 이는 놀라운 결과와 함께 널리 사용되는 전략이 되었습니다.
그러나 이 방법은 종종 핵심 사항을 무시합니다. 반응물과 생성물 사이에 직접 활용할 수 있는 동일한 하위 구조가 많이 있습니다. 이러한 하위 구조를 충분히 활용하지 못하면 모델 예측의 효율성과 정확성이 제한됩니다.
2024년 7월, Shanghai Jiao Tong University 인공 지능 연구소의 Jin Yaohui와 Xu Yanyan 연구팀은 "Ualign: unsupervised SMILES alignment로 template-free 역합성 예측의 한계를 뛰어넘다"라는 기사를 게재했습니다. "Journal of Cheminformatics".
연구에서 저자는 화학 반응 예측의 정확성과 효율성을 향상시키는 것을 목표로 비지도 SMILES 서열 정렬 기술을 통합한 단일 단계 역합성 예측 프로세스를 제안했습니다. 실험 결과는 역합성 경로를 예측하는 데 있어 모델의 효율성을 입증하고 모델이 약물 발견을 위한 귀중한 도구가 될 가능성이 있음을 시사합니다. 논문 링크:Graph to Sequence의 모델 아키텍처
원자를 노드로 간주하면, 화학 결합을 모서리로 처리하면 분자 구조가 자연스럽게 그래프 구조로 변환될 수 있습니다. 시퀀스 모델과 비교하여 그래프 신경망은 분자 내부의 토폴로지 구조 정보를 더 잘 포착할 수 있으므로 보다 정확한 분자 특성 분석을 달성할 수 있습니다. 또한 다른 그래프 구조에 비해 화학 분자의 화학 결합은 풍부한 화학적 특성 정보를 전달합니다. 이러한 장점을 바탕으로 저자는 다운스트림 애플리케이션에 보다 강력한 분자 표현 기능을 제공하는 것을 목표로 Transformer 모델의 인코더 부분을 대체하기 위해 Graph Attention Network 기반 변형을 제안합니다. 그림: 모델의 개략도비지도 SMILES 정렬 메커니즘
단일 단계 역합성 예측에서 시퀀스 모델링 방법을 사용한다는 것은 일반적으로 반응물의 구조를 처음부터 구성해야 함을 의미합니다. 반응물과 생성물 사이의 동일한 하위 구조를 효율적으로 활용하기 위해 기존 제품을 기반으로 직접 수정을 할 수 없습니다. 이 접근 방식은 생성된 결과의 정확성을 어느 정도 제한합니다. 시퀀스 모델링에서 일반적으로 사용되는 분자 SMILES 표현이 실제로 분자 내의 원자와 화학 결합을 깊이 우선 탐색 순서로 배열한다는 점을 고려하면, 반응물 SMILES 표현에 나타나는 각 생성물 원자의 위치 정보를 제공할 수 있다면 모델이 반응 중에 변경되지 않은 하위 구조를 식별하고 재사용하는 데 도움이 됩니다. 이는 모델이 반응물을 예측하는 어려움을 크게 줄이고 예측 정확도를 향상시킵니다. 시퀀스 모델링의 관점에서 일반적으로 사용되는 분자 SMILES 특성화는 본질적으로 깊이 우선 검색(DFS)의 순서에 따라 분자의 원자와 화학 결합을 배열합니다. 반응물의 SMILES 표현에서 생성물의 각 원자의 위치 정보가 모델에 제공될 수 있다면 모델의 식별과 변경되지 않은 하위 구조의 재사용이 크게 촉진되어 반응물 예측의 어려움이 크게 줄어들고 예측 정확도가 향상됩니다. . 그러나 이러한 대응 정보를 직접 제공하면 모델 훈련 중에 정보가 유출될 위험이 있습니다. 이 문제를 피하기 위해 연구진은 라벨 정보 유출 없이 반응물의 분자 구조를 이해하고 예측하는 모델의 능력을 최적화하는 혁신적인 전략을 제안했습니다. SMILES 서열 특성 분석이 분자 그래프의 깊이 우선 검색에서 파생되고 반응물과 생성물 사이의 대부분의 하위 구조가 매우 일관적이라는 점을 고려하면 모든 생성물의 주어진 DFS 서열에 대해 상응하는 것이 있어야 합니다. 분자의 DFS 순서 반응물 다이어그램은 반응물과 생성물의 해당 원자가 거의 동일한 순서로 나타나도록 되어 있습니다. 이 전략을 기반으로 연구원들은 생성물 분자 구조를 모델 입력에 통합했을 뿐만 아니라 반응물 분자의 DFS 순서도 입력의 일부로 도입했습니다. 또한 위 전략에 따라 연구원들은 주어진 반응물의 DFS 시퀀스와 매우 일치하는 제품 분자 DFS 시퀀스를 생성하고 이 시퀀스를 사용하여 모델 훈련의 대상인 반응물의 SMILES 표현을 생성했습니다. . 이 디자인을 사용하면 모델의 입력과 출력에서 반응물과 생성물 간의 유사한 하위 구조가 거의 동일한 순서로 배열될 수 있으므로 모델이 반응물과 생성물 간의 동일한 구조적 일치성을 학습하는 과정이 단순화되고 그룹을 식별하는 데 도움이 됩니다. 반응 중에 변하는 것입니다.반응물 구조를 처음부터 구성하는 경우에도 이 방법을 사용하면 제품 구조 정보를 효과적으로 재사용하고 예측 정확도를 크게 높일 수 있습니다.
특히 중요한 점은 제품의 DFS 순서가 분자 구조 정보에만 기초하고 반응물에 대한 주석 정보에 의존하지 않기 때문에 이 방법은 모델 훈련 과정에서 라벨 누출 문제를 효과적으로 방지한다는 것입니다.
동시에 이 비지도 SMILES 정렬 방법은 훈련 과정 중에 추가 감독 신호를 도입할 필요가 없으므로 다중 작업 학습에서 복잡한 데이터 주석 및 최적화 문제를 피하고 분자 분야에 새로운 방법을 제공합니다. 역합성 예측 및 효율적인 연구 방법.
실험 결과 표시
이 연구에서 저자는 널리 사용되는 USPTO-50K 데이터 세트는 물론 더 많은 양의 USPTO-50K 데이터 세트를 포괄하는 다중 분자 역합성 예측 데이터 세트에 대한 체계적인 평가를 수행했습니다. MIT 및 USPTO-FULL.
모델 성능을 평가할 때 top-k 정확도가 주요 평가 지표로 사용됩니다. USPTO-50K 데이터 세트에서 저자는 모델에 의해 생성된 SMILES 시퀀스의 적법성을 검사했을 뿐만 아니라 대규모 사전 훈련을 통해 모델에 의해 출력된 합성 방식의 실제 타당성에 대한 루프백 검증을 수행했습니다. 순방향 반응 예측 모델.
표 1: USPTO-50K 역합성 예측의 Top-k 정확도
USPTO-50K 데이터 세트의 실험 결과는 표 1에 요약되어 있으며, 특정 반응 유형이 있을 때 UAlign 모델이 USPTO에서 더 나은 성능을 발휘함을 보여줍니다. 지정되지 않았습니다. -50K 데이터 세트의 상위 5개 정확도는 84.6%로 높으며, 이는 템플릿이 없는 다른 기준 모델보다 훨씬 뛰어납니다.
표 2: USPTO-MIT 역합성 예측의 Top-k 정확도
표 2와 표 3의 실험 데이터는 대규모 데이터 세트 USPTO-MIT 및 USPTO-FULL, UAlign 모델에서 상당한 이점으로 다른 다양한 기본 모델을 능가합니다.
표 3: USPTO-FULL에 대한 역합성 예측의 Top-k 정확도
또한 표 4의 실험 결과는 다른 SMILES 기반 역합성 예측 모델과 비교하여 UAlign 모델에 의해 생성된 반응물이 SMILES 시퀀스는 적법성이 더 높습니다.
표 4: USPTO-50K에 대한 알려지지 않은 반응 등급의 역합성 예측을 위한 Top-k SMILES 효율성
표 5의 실험 데이터는 합리적이고 실행 가능한 합성 계획을 생성하는 UAlign 모델의 능력을 더욱 강조합니다. 그 이유는 UAlign이 제안한 합성 방식 중 상대적으로 높은 비율이 순방향 반응 예측 모델의 검증을 통과할 수 있기 때문입니다. 즉, 이러한 방식은 해당 화학 반응 후 주어진 목표 생성물로 효과적으로 변환될 수 있습니다.
표 5: USPTO-50K에서 알 수 없는 반응 범주를 사용한 역합성 예측을 위한 Top-k 왕복 정확도
이러한 실험 결과는 분자 역합성 예측 작업에서 UAlign 모델의 효율성과 정확성을 검증할 뿐만 아니라, 또한 대규모 데이터 세트를 처리할 때 탁월한 성능을 발휘하고 고품질 합성 솔루션을 생성하는 데 있어 상당한 이점을 강조합니다.
실제 생산에서 UAlign 모델의 적용 가능성을 검증하기 위해 저자는 지난 2년 동안 미국 식품의약국(FDA)에서 승인된 신약을 합성 타겟으로 선정했으며, 모델의 여러 반복을 통해 합성 경로를 성공적으로 얻었습니다. 이 두 약물의 합성 경로에 대한 모델의 예측은 문헌에 기록된 경로와 매우 일치합니다.
또한 세 번째 약물의 경우 모델이 예측한 합성 경로도 화학 분야 전문가들로부터 실현 가능성을 인정받았습니다. 이러한 합성 경로는 다양한 반응 유형을 포괄할 뿐만 아니라 순환 화합물의 합성 및 여러 반응 센터를 포함하는 단일 단계 역합성 예측과 같은 복잡한 상황도 포함합니다.
위의 실험 결과는 UAlign 모델이 다양한 반응 유형에 대처할 수 있을 뿐만 아니라 실제 생산에 있어서 적용 가치가 높다는 것을 충분히 입증합니다. 이는 UAlign 모델이 분자 역합성 예측 분야에서 강력한 실용성과 유연성을 갖고 약물 합성을 위한 효과적인 솔루션을 제공할 수 있음을 보여줍니다.
미래 전망
뛰어난 성능과 유연성을 갖춘 UAlign 모델은 다단계 역합성 시스템 구축의 초석 역할을 완벽하게 수행할 수 있습니다. 다양한 검색 알고리즘과 다목적 최적화 기술을 결합하여 효율적이고 지능적인 역합성 경로 계획 시스템을 구성할 수 있습니다.
또한 저자는 약물 발견 및 합성 프로세스의 자동화를 촉진하기 위해 자동화된 무인 실험실을 만들기 위해 UAlign 알고리즘과 고급 하드웨어 장비의 통합을 적극적으로 탐구하고 있으며, 화학 연구 및 약물 개발 분야에 혁신적인 변화를 가져오고 있습니다. 변화.
위 내용은 화학적 재합성 SOTA! Shanghai Jiao Tong University 팀은 효율적인 역합성 예측을 달성하기 위해 SMILES 정렬 기술을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!