Editor | KX
역합성은 약물 발견 및 유기 합성에서 중요한 작업이며, AI는 프로세스 속도를 높이는 데 점점 더 많이 사용되고 있습니다.
기존 AI 방식은 성능이 만족스럽지 못하고 다양성이 제한되어 있습니다. 실제로 화학 반응은 종종 반응물과 생성물 사이에 상당한 중복이 발생하는 국지적인 분자 변화를 일으킵니다.
이로부터 영감을 받아 저장대학교의 Hou Tingjun 팀은 단일 단계 역합성 예측을 분자 문자열 편집 작업으로 재정의하고 표적 분자 문자열을 반복적으로 정제하여 전구체 화합물을 생성할 것을 제안했습니다. 그리고 고품질의 다양한 예측을 달성할 수 있는 편집 기반 역합성 모델 EditRetro를 제안합니다.
광범위한 실험을 통해 이 모델은 표준 벤치마크 데이터 세트 USPTO-50 K에서 상위 1위 정확도 60.8%로 탁월한 성능을 달성하는 것으로 나타났습니다.
결과에 따르면 EditRetro는 우수한 일반화 기능과 견고성을 보여 AI 기반 화학 합성 계획 분야에서의 잠재력을 강조합니다.
"반복 문자열 편집 모델을 이용한 역합성 예측"이라는 제목의 관련 연구가 "Nature Communications" 7월 30일자에 게재되었습니다.
논문 링크: https://www.nature.com/articles/s41467-024-50617-1
분자 합성 경로 설계는 유기 합성에서 중요한 작업으로, 바이오의약품, 의약품에 중요한 역할을 합니다. 소재산업 등 다양한 분야에서 큰 의미를 갖습니다.
역합성 분석은 합성 경로 개발에 가장 널리 사용되는 방법입니다. 여기에는 분자를 더 간단하고 합성하기 쉬운 전구체로 반복적으로 분해하기 위해 확립된 반응을 사용하는 것이 포함됩니다.
최근 몇 년 동안 AI 기반 역합성은 더 복잡한 분자의 탐색을 촉진하여 합성 실험을 설계하는 데 필요한 시간과 노력을 크게 줄였습니다. 단일 단계 역합성 예측은 역합성 계획의 중요한 부분입니다. 현재 우수한 결과를 제공하는 몇 가지 딥러닝 기반 방법이 있습니다. 이러한 방법은 크게 템플릿 기반 방법, 템플릿 프리 방법, 반템플릿 기반 방법의 세 가지 범주로 나눌 수 있습니다.
여기서 연구자들은 템플릿이 필요 없는 역합성 예측에 중점을 둡니다. 이 문제를 분자 문자열 편집 작업으로 재정의하고 고품질의 다양한 예측을 달성할 수 있는 편집 기반 역합성 모델인 EditRetro를 제안합니다.
그림: 분자 끈 역합성을 기반으로 제안된 EditRetro 방법의 개략도. (출처: 논문)
이 연구의 핵심 개념은 Levenshtein 연산을 사용한 반복 편집 과정을 통해 반응물 문자열을 생성하는 것입니다. 이 접근 방식은 편집 기반 시퀀스 생성 모델의 최근 발전에서 영감을 얻었습니다. 특히 신경 기계 번역을 위해 설계된 편집 기반 Transformer인 EDITOR의 작업이 사용됩니다.
EditRetro 개요
EditRetro 모델에는 반응 문자열을 생성하기 위한 세 가지 편집 작업, 즉 시퀀스 재배치, 자리 표시자 삽입 및 마커 삽입이 포함되어 있습니다. 이는 인코더와 세 개의 디코더로 구성된 Transformer 모델로 구현되며, 둘 다 적층된 Transformer 블록으로 구성됩니다.
EditRetro 모델은 비자동회귀 디코더를 통해 생성 효율성을 향상시킵니다. 편집 작업을 반복적으로 예측하기 위해 추가 디코더를 통합하더라도 EditRetro는 각 디코더 내에서 편집 작업을 병렬로 수행합니다(즉, 비자동회귀 생성).
목표 분자가 주어지면 인코더는 해당 문자열을 입력으로 사용하고 해당 숨겨진 표현을 생성한 다음 디코더의 교차 주의 모듈에 대한 입력으로 사용합니다. 마찬가지로 디코더도 첫 번째 반복에서 곱 문자열을 입력으로 사용합니다. 각 디코딩 반복 동안 세 개의 디코더가 순차적으로 실행됩니다.
기준보다 우수하고 정확한 반응물 생성
研究人員在公共基準資料集 USPTO-50K 和 USPTO-FULL 上評估了所提方法。大量實驗結果表明,該方法在預測準確度方面優於其他基線,包括最先進的基於序列的方法 R-SMILES 和基於圖編輯的方法 Graph2Edits。
EditRetro 在基準逆合成資料集 USPTO-50K 上進行的大量實驗表明,EditRetro 取得了優越的性能,top-1 精確匹配準確率達到 60.8%。
此外,在更大的USPTO-FULL 數據集上,其中top-1 精確匹配準確率達到52.2%,證明了其在更多樣化和更具挑戰性的化學反應中是有效的。
EditRetro 在 RoundTrip 和 MaxFrag 準確率方面也表現出優於基準方法的性能。這證明了 EditRetro 能夠有效地學習化學規則。
此外,EditRetro 透過精心設計的推理模組提供多樣化的預測。該模組結合了重新定位採樣和序列增強,有助於產生多樣化和變化的預測。重新定位取樣對重新定位動作的預測進行取樣,從而能夠辨識不同的反應位點。序列增強從不同的產品變體到反應物生成不同的編輯途徑,從而提高了預測的準確性和多樣性。這兩種策略共同作用,提高了預測的準確性和多樣性。
進一步的實驗驗證了 EditRetro 在一些更複雜的反應中的優越性,包括手性、開環和成環反應。結果證實了 EditRetro 在這些具有挑戰性的場景中的優越性,證明了它能夠處理不同類型的化學轉化。
在多步驟合成規劃中的實用性
特別是,EditRetro 在四個多步驟逆合成規劃場景中的成功應用證明了其實用性。
為了評估 EditRetro 在合成規劃中的實用性,透過連續的逆合成預測設計完整的化學途徑。研究人員選擇了四種具有重要藥用價值的目標化合物進行評估:非布司他、奧希替尼、GPX4 的變構活化劑和 DDR1 激酶抑制劑 INS015_037。
圖示:EditRetro 的多步驟逆合成預測。 (資料來源:論文)
所有四個範例都產生了與文獻中報導的途徑非常一致的逆合成途徑,大多數預測排名在前兩位。在考慮的 16 個單獨步驟中,有 10 個步驟的預測準確率為 1。這些結果證明了 EditRetro 在實際逆合成預測中的實際潛力。
透過提供有價值的見解並促進高效合成路線的設計,該方法有望在逆合成規劃領域得到實際應用。
위 내용은 정확도는 60.8%에 달합니다. Transformer를 기반으로 한 Zhejiang University의 화학적 역합성 예측 모델은 Nature 저널에 게재되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!