Re-formatted|
논문 링크: https://doi.org/10.1007/s10489-023-05048-8관련 코드: https://github.com/AILBC/BiG2S저자는 다음을 사용합니다. 템플릿 없는 역합성 분야의 현재 상승세를 보여주는 다이어그램 시퀀스 모델 프레임워크를 기반으로 우리는 역합성 예측과 순방향 반응 예측 작업을 동시에 단일 방식으로 해결하는 모델 BiG2S(양방향 그래프-시퀀스)를 구축하려고 시도합니다. 동시에 저자는 합성 데이터 세트 USPTO-50k에 대해 주류 반전을 연구하고 훈련 과정에서 다양한 SMILES 세그먼트에 대한 모델의 예측 난이도 차이를 연구했습니다. 검증 세트에서 모델의 Top-k 일치율 변동을 조사하고 이러한 문제를 해결하기 위해 불균형 손실을 도입했으며 향상된 모델 앙상블 및 빔 검색 전략을 도입했습니다.
복합성과 정합성은 유기화학, 컴퓨터 지원 합성 계획(CASP) ) 그리고 CADD(Computer-Aided Drug Design) 분야의 근본적인 과제
콘텐츠를 다시 작성할 때 원래의 의미를 변경하지 않고 원본 텍스트를 중국어로 다시 작성해야 합니다
초기 역합성 계획 시스템은 사전 코딩된 코드에 직접 의존했습니다. 도메인 전문가가 제공하는 정보 딥러닝의 급속한 발전에 따른 반응 규칙 또는 물리화학을 기반으로 한 계산. 현재 이 분야의 주류 방법은 데이터 중심 관점에서 반응 예측 작업을 완료하기 위해 작업별 신경망 프레임워크를 구축하는 것입니다. 그 중 특정 사전 화학 지식에 의존하지 않는 템플릿 프리 방식은 엔드투엔드 기계 번역과 유사한 단순성과 유연성을 통해 점차 해당 분야의 주류 개발 방향 중 하나로 자리 잡았습니다. 현재 대부분의 템플릿이 없는 역합성 모델의 입력 및 출력은 SMILES 분자 문자열, 즉 Seq2Seq(시퀀스 간) 프로세스를 사용합니다. 이 방법은 자연어 처리 분야의 기존 모델 프레임워크와 SMILES 표현 방법의 성숙한 데이터 처리 흐름을 잘 활용할 수 있습니다. 그러나 SMILES를 1차원 문자열 시퀀스로 잘 표현하고 활용할 수는 없습니다. 분자 그래프에 포함된 2차원/3차원 구조 정보, SMILES 대신 분자 그래프를 모델 입력으로 사용하는 Graph-to-Sequence(Graph2Seq) 방법이 이 분야에서 점차 등장하거나 분자 그래프의 추가적인 구조 정보가 내장되어 있습니다. . 두 가지 방법 모두 분자 그래프의 풍부한 구조적 특징을 잘 활용할 수 있습니다.
이를 바탕으로 이 논문은 새롭게 떠오르는 그래프-시퀀스 방법을 기반으로 하며 원래의 SMILES 기반 모델에서 역합성 및 순방향 반응 예측 작업을 동시에 훈련합니다. 관련 탐색 벤치마크를 기반으로 이러한 유형의 이중 작업 모델의 구성 및 실험을 더욱 포괄적으로 탐색하고 훈련 과정에서 모델이 표시하는 난이도 불균형 및 Top-k 일치율 변동을 사전 탐색 및 분석합니다. ;이를 기반으로 구축된 BiG2S 모델은 주류 데이터 세트에서 역합성 및 순방향 반응 예측 작업을 더 잘 처리할 수 있으며 데이터 향상을 사용하지 않고도 템플릿이 없는 다른 역합성 모델과 일치하는 반응 예측 기능을 달성합니다
전체 프레임워크를 다시 작성해야 합니다
BiG2S의 전체 구조는 그림 1과 같이 엔드 투 엔드 인코더-디코더입니다. 인코더 측은 그래프 네트워크를 전달하는 로컬 지향 메시지와 그래프 구조 바이어스 정보를 통합하여 최종 분자 그래프 노드 표현을 생성하는 글로벌 그래프 변환기를 사용합니다. 디코더는 표준 Transformer 디코더를 사용하여 자동 회귀 방식으로 대상 분자의 SMILES 시퀀스를 생성합니다
역합성과 순방향 반응 예측을 동시에 학습하기 위해 디코더에 대한 입력에는 추가로 이중 위치 정보를 추가하지 않고 숫자 순서를 지정합니다. 동시에 디코더 측의 정규화 레이어와 최종 선형 레이어에는 두 세트의 매개변수가 있으며 이는 각각 역합성 작업과 순방향 반응 예측 작업을 학습하는 데 사용됩니다
그림 1: BiG2S 전체 프레임워크 다이어그램
이중 작업 필요 교육 프레임워크
역합성과 순방향 반응 예측은 두 가지 관련 작업입니다. 역합성 작업은 생성물을 입력으로 사용하고 반응물을 목표 출력으로 사용하는 반면, 순방향 반응 예측 작업은 그 반대입니다. 역합성 작업의 입력과 목표 출력을 교환하여 순방향 반응 예측 작업으로 변환할 수 있기 때문에 이 두 작업 사이에는 밀접한 연관성이 있습니다
따라서 SMILES를 기반으로 하는 일부 템플릿이 없는 모델은 합성 및 전달을 시도했습니다. 반응 예측은 화학 반응에 대한 이해를 향상시키기 위한 훈련 목표로 사용되며 특정 결과를 달성했습니다. 이 아이디어를 바탕으로 저자는 그래프-시퀀스 모델에 이중 작업 훈련을 도입하려고 더욱 노력했습니다
구체적으로, 저자는 이전에 다른 방법에서 사용했던 매개변수 공유 전략을 기반으로 디코더의 정규화 계층과 최종 선형 레이어 작업별 매개변수의 두 세트가 구성됩니다. 다른 모듈에서는 두 가지 유형의 작업이 매개변수 세트를 공유합니다. 동시에 추가 이중 작업 레이블이 입력 분자 그래프 노드와 디코더의 초기 입력 시퀀스에 추가됩니다. 이런 방식으로 전체 모델 크기를 제어하면서도 모델은 두 가지 유형의 작업을 구별하고 서로 다른 데이터 분포를 학습할 수 있습니다
교육 및 추론 최적화가 필요합니다
교육 과정에서 저자는 추가로 기록했습니다. 그리고 훈련 과정에 반영된 모델의 두 가지 유형의 문제를 분석했습니다
먼저, 저자는 그림 2와 같이 USPTO-50k에서 다양한 SMILES 문자의 발생 빈도와 훈련 중 해당 예측 정확도를 기록했습니다. 훈련 과정에서 훈련 세트에서 각각 0.4%와 0.3%를 차지하는 S와 Br의 경우 전체 예측 정확도의 절대 차이는 8%에 도달했습니다. 이는 처음에는 서로 다른 분자 구조/단편 간의 예측 난이도에 명백한 차이가 있음을 보여줍니다. 따라서 저자는 불균형 손실 함수(예: 초점 손실)를 도입하여 이러한 문제를 완화하여 모델이 더 많은 주의를 기울일 수 있도록 했습니다. 훈련 중 저분자 단편
그림 2: USPTO-50k 훈련 세트에서 훈련 중 다양한 SMILES 문자의 발생 빈도와 전반적인 예측 정확도
또한 저자는 다음의 검증도 기록했습니다. 훈련 중 모델 그림 3과 같이 세트의 예측 결과 품질이 변경됩니다. 저자는 USPTO-50k 데이터 세트의 중간 및 후기 훈련 단계에서 검증 세트에 대한 모델의 Top-1 정확도는 여전히 향상되지만 Top-3, Top-5의 예측 품질은 저하되는 것을 발견했습니다. 및 Top-10 대폭 감소
모델의 상위 10개 반응물 생성 결과의 전반적인 품질을 유지하면서 모델의 상위 1개 예측 품질을 향상시키기 위해 맞춤형 평가 지표 기반의 일종의 모델 통합 전략을 추가로 구축했습니다. . 구체적으로, 모델을 저장하고 미리 정의된 평가 지표(예: Top-1 정확도, 가중치 Top-k 정확도 등)에 따라 저장된 모델을 정렬하는 대기열을 구축합니다. 훈련 과정 전반에 걸쳐 후보 모델을 동적으로 저장하고 대기열의 상위 3~5위를 기반으로 앙상블 모델을 자동으로 생성하여 가장 높은 예측 품질로 Top-k 모델을 유지합니다. 추론 단계에서 우리는 또한 새로운 프레임워크를 기반으로 빔 검색 전략을 재구축하고 검색 폭에 더 집중하여 모델 Top-k 생성 결과의 전반적인 품질을 향상시켰습니다
이중 작업 실험에서 벤치마크 데이터 세트가 필요합니다
저자가 수행한 실험은 50,000, 500,000, 100만 개의 화학반응 데이터가 포함된 USPTO-50k, USPTO-MIT, USPTO-full 데이터 세트를 사용하여 수행되었습니다. 실험에서는 이중 작업 모델과 단일 작업 모델의 성능을 비교했습니다. 그림 4의 테스트 결과에 따르면,
소규모 데이터 세트에서 BiG2S는 이중 작업 훈련을 기반으로 역합성 작업에서 최고의 예측 정확도를 달성하는 동시에 높은 순방향 반응 예측 정확도를 유지했지만 편향되었습니다. 반응 예측을 위한 USPTO-MIT 데이터 세트와 USPTO-full의 대규모 데이터 세트에서는 모델의 전체 매개변수 양의 한계로 인해 이중 작업 훈련 후 모델의 성능이 향상되었습니다. 감소했습니다. 그럼에도 불구하고 역합성 작업과 순방향 반응 예측 작업을 동시에 처리하는 능력은 거의 동일한 수의 매개변수와 응답 예측 능력의 작은 감소를 갖는 이중 작업 모델에서 얻어졌습니다(Top-k 정확도의 절대 차이는 약 0.5%) 기능 측면에서 BiG2S 모델은 예상 목표를 달성했습니다
절제 실험 재분석
저자는 절제 실험을 통해 불균형 손실을 사용한 후 다양한 데이터 세트에서 예측할 때 새로운 빔 검색 알고리즘과 BiG2S의 최적 온도 하이퍼 매개변수를 추가로 검증했습니다. 여기서 온도 하이퍼파라미터는 출력 확률 분포를 제어하기 위해 Softmax에서 사용되는 온도 매개변수 T를 나타냅니다. 실험 결과는 그림 5와 그림 6에 나와 있습니다
빔 탐색 알고리즘 실험에서 OpenNMT는 검색 폭을 3배로 확장한 반면 검색 시간은 1.74배로 확장한 반면, 새로운 빔 탐색은 알고리즘 Top-1 정확도가 OpenNMT와 일치하는 경우 전체 검색 시간은 1~2배 증가하지만 Top-10 예측 결과의 품질 측면에서 새로운 빔 검색 알고리즘은 최소한 OpenNMT 대비 3%의 유효 분자 비율 이점은 물론, 새로운 빔 검색 알고리즘은 검색 시간을 희생하면서 모델의 전체 Top-k 검색 결과의 품질을 크게 향상시켰다고 할 수 있습니다.
온도 초매개변수에 대한 실험을 수행할 때 연구원들은 소규모 데이터 세트에서 더 큰 온도 매개변수를 사용하면 전반적인 Top-k 예측 정확도를 크게 향상시킬 수 있음을 발견했습니다. 더 큰 데이터 세트에서는 BiG2S 모델 크기가 모든 반응 데이터에 완전히 적응할 수 없기 때문에 이때 더 작은 온도 매개변수를 선택하면 모델 검색에 도움이 되는 경우가 많습니다
연구의 결론은...
본 논문에서 저자는 역합성 작업과 순방향 반응 예측 작업을 동시에 처리할 수 있는 BiG2S라는 템플릿 없는 반응 예측 모델을 제안합니다. . 적절한 매개변수 공유 전략과 추가 이중 작업 레이블을 채택함으로써 BiG2S는 더 적은 수의 매개변수로 다양한 크기의 데이터 세트에 대한 역합성 작업 및 반응 예측 작업을 완료할 수 있으며 전반적인 예측 능력은 주류 모델과 비슷합니다
다양한 SMILES 캐릭터의 예측 난이도가 고르지 않고 모델 훈련 중 Top-k 예측 정확도가 변동하는 문제를 해결하기 위해 저자는 불균형 손실, 맞춤형 평가 지표를 기반으로 한 모델 자동 통합 전략 및 빔 검색 알고리즘을 도입했습니다. 이러한 문제를 완화하기 위한 새로운 프레임워크
BiG2S는 서로 다른 크기의 세 가지 주류 데이터 세트에 대해 우수한 이중 작업 예측 기능을 보여줬으며 추가 제거 실험에서도 추가로 도입된 훈련 및 추론 전략의 효과가 입증되었습니다
위 내용은 이중 작업 기반의 엔드투엔드 템플릿 없는 응답 예측 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!