présentez MolE, un modèle basé sur un transformateur pour l'apprentissage des graphes moléculaires. MolE fonctionne directement avec les graphiques moléculaires en fournissant à la fois des identifiants d'atomes et une connectivité graphique sous forme de jetons d'entrée. Les identifiants d'atomes sont calculés en hachant différentes propriétés atomiques en un seul entier, et la connectivité graphique est donnée sous la forme d'une matrice de distance topologique. MolE utilise un Transformer comme architecture de base, qui a également été appliquée aux graphiques auparavant. Les performances des transformateurs peuvent être attribuées en grande partie à l’utilisation intensive du mécanisme d’auto-attention. Dans les transformateurs standard, les jetons d'entrée sont intégrés dans des requêtes, des clés et des valeurs (Q, K, Vin {R} ^ {Ntimes d}), qui sont utilisées pour calculer l'auto-attention comme :
MolE est un modèle de transformateur conçu spécifiquement pour les graphiques moléculaires. Il fonctionne directement avec les graphiques en fournissant à la fois des identifiants d'atomes et une connectivité graphique sous forme de jetons d'entrée et d'informations de position relative, respectivement. Les identifiants d'atomes sont calculés en hachant différentes propriétés atomiques en un seul entier. Ce hachage contient notamment les informations suivantes :
- nombre d'atomes lourds voisins,
- nombre d'atomes d'hydrogène voisins,
- valence moins le nombre d'hydrogènes attachés,
- charge atomique,
- masse atomique,
- types d'obligations attachées,
- et l'adhésion au ring.
Les identifiants d'atomes (également connus sous le nom d'environnements d'atomes de rayon 0) ont été calculés à l'aide de l'algorithme de Morgan tel qu'implémenté dans RDKit.
En plus des jetons, MolE prend également en entrée les informations de connectivité du graphe, ce qui constitue un biais inductif important car il code la position relative des atomes dans le graphe moléculaire. Dans ce cas, la connectivité graphique est donnée sous la forme d'une matrice de distance topologique d où dij correspond à la longueur du chemin le plus court sur les liaisons séparant l'atome i de l'atome j.
MolE utilise un Transformer comme architecture de base, qui a également été appliquée aux graphiques auparavant. Les performances des transformateurs peuvent être attribuées en grande partie à l’utilisation intensive du mécanisme d’auto-attention. Dans les transformateurs standard, les jetons d'entrée sont intégrés dans des requêtes, des clés et des valeurs (Q, K, Vin {R} ^ {Ntimes d}), qui sont utilisées pour calculer l'auto-attention comme :
où ({H}_{0}in {R}^{Ntimes d}) sont les vecteurs cachés de sortie après auto-attention, et (d) est la dimension de l'espace caché.
Afin de transmettre explicitement les informations de position à travers chaque couche du transformateur, MolE utilise l'auto-attention démêlée de DeBERTa :
où ({Q}^{c},{K}^{c},{V}^{c}in {R}^{Ntimes d}) se trouvent les requêtes contextuelles, les clés et les valeurs qui contiennent des informations sur les jetons ( utilisé dans l'auto-attention standard), et ({Q}_{i,j}^{p},{K}_{i,j}^{p}in {R}^{Ntimes d}) sont la position requêtes et clés qui codent la position relative de l'atome (i{{{rm{th}}}}) par rapport à l'atome (j{{{rm{th}}}}). L'utilisation de l'attention démêlée rend MolE invariant par rapport à l'ordre des atomes d'entrée.
Comme mentionné précédemment, le pré-entraînement auto-supervisé peut transférer efficacement des informations de grands ensembles de données non étiquetés vers des ensembles de données plus petits avec des étiquettes. Nous présentons ici une stratégie de pré-formation en deux étapes. La première étape est une approche auto-supervisée pour apprendre la représentation de la structure chimique. Pour cela nous utilisons une approche de type BERT dans laquelle chaque atome est masqué aléatoirement avec une probabilité de 15%, dont 80% des jetons sélectionnés sont remplacés par un jeton de masque, 10% remplacés par un jeton aléatoire du vocabulaire, et 10% ne sont pas modifiés. Différent de BERT, la tâche de prédiction n'est pas de prédire l'identité du jeton masqué, mais de prédire l'environnement atomique correspondant (ou environnement atomique fonctionnel) de rayon 2, c'est-à-dire tous les atomes séparés de l'atome masqué par deux liaisons ou moins. . Il est important de garder à l’esprit que nous avons utilisé différentes stratégies de tokenisation pour les entrées (rayon 0) et les étiquettes (rayon 2) et que les jetons d’entrée ne contiennent pas de données superposées sur les atomes voisins afin d’éviter les fuites d’informations. Cela incite le modèle à regrouper les informations des atomes voisins tout en apprenant les caractéristiques moléculaires locales. MolE apprend via une tâche de classification dans laquelle chaque environnement atomique de rayon 2 a une étiquette prédéfinie, contrairement à l'approche de prédiction de contexte où la tâche consiste à faire correspondre l'intégration des environnements atomiques de rayon 4 à l'intégration des atomes de contexte (c'est-à-dire les atomes environnants au-delà). rayon 4) par échantillonnage négatif. La deuxième étape utilise un pré-entraînement supervisé au niveau graphique avec un grand ensemble de données étiquetées. Comme proposé par Hu et al., la combinaison du pré-entraînement au niveau des nœuds et des graphes permet d'apprendre des fonctionnalités locales et globales qui améliorent les performances de prédiction finale. Plus de détails concernant les étapes de pré-formation peuvent être trouvés dans la section Méthodes.
MolE a été pré-entraîné à l'aide d'une base de données ultra-large d'environ 842 millions de molécules de ZINC et ExCAPE-DB, en utilisant un schéma auto-supervisé (avec une perte auxiliaire) suivi d'un pré-entraînement supervisé avec environ 456 000 molécules (voir la section Méthodes pour plus de détails). Nous évaluons la qualité de l'intégration moléculaire en ajustant MolE sur un ensemble de tâches en aval. Dans ce cas, nous utilisons un ensemble de 22 tâches ADMET incluses dans le benchmark Therapeutic Data Commons (TDC). Ce benchmark est composé de 9 tâches de régression et 13 tâches de classification binaire sur des ensembles de données allant de centaines (par exemple, DILI avec 475 composés) à des milliers. de composés (telles que les tâches d'inhibition du CYP avec environ 13 000 composés). Un avantage de l'utilisation de ce benchmark est
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!