Les grands modèles de langage (LLM) tels que GPT d'OpenAI et Llama de Meta AI sont de plus en plus reconnus pour leur potentiel dans le domaine de la chimioinformatique, notamment dans la compréhension de l'aspect des systèmes d'entrée de ligne d'entrée moléculaire simplifiés (SMILES). Ces LLM sont également capables de décoder les chaînes SMILES en représentations vectorielles.
Des chercheurs de l'Université de Windsor au Canada ont comparé les performances de modèles pré-entraînés sur GPT et Llama avec SMILES pour intégrer des chaînes SMILES dans des tâches en aval, en se concentrant sur deux applications clés : la prédiction des propriétés moléculaires et la prédiction des interactions médicamenteuses.
L'étude s'intitulait « Les grands modèles de langage peuvent-ils comprendre les molécules ? » et a été publiée dans « BMC Bioinformatics » le 25 juin 2024.
1. Application de l'intégration moléculaire dans la découverte de médicamentsL'intégration moléculaire est une tâche cruciale dans la découverte de médicaments et est largement utilisée dans la prédiction des propriétés moléculaires, la prédiction des interactions médicament-cible (DTI) et la fonction d'interaction médicament-médicament (DDI). ) prédiction et autres tâches connexes.
2. Technologie d'intégration moléculaire
La technologie d'intégration moléculaire peut apprendre des caractéristiques à partir de graphiques moléculaires codant pour des informations de connexion structurelle moléculaire ou des annotations linéaires de leurs structures, telles que la représentation populaire SMILES.
3. Intégrations moléculaires dans les chaînes SMILES
Les intégrations moléculaires via les chaînes SMILES ont évolué en tandem avec les progrès de la modélisation du langage, des intégrations de mots statiques aux modèles pré-entraînés contextualisés. Ces techniques d'intégration visent à capturer des informations structurelles et chimiques pertinentes dans une représentation numérique compacte.
Illustration : représentation chimique médicinale. (Source : Article)L'hypothèse de base est que les molécules ayant des structures similaires se comportent de manière similaire. Cela permet aux algorithmes d’apprentissage automatique de traiter et d’analyser les structures moléculaires pour les tâches de prédiction de propriétés et de découverte de médicaments.
Avec les percées du LLM, une question importante est de savoir si le LLM peut comprendre les molécules et faire des inférences basées sur des données moléculaires ?
Plus précisément, le LLM peut-il produire des représentations sémantiques de haute qualité ?
Shaghayegh Sadeghi, Alioune Ngom Jianguo Lu et d'autres de l'Université de Windsor ont exploré plus en détail la capacité de ces modèles à intégrer efficacement les SMILES. Actuellement, cette fonctionnalité est sous-explorée, peut-être en partie à cause du coût des appels API.
Les chercheurs ont découvert que les intégrations SMILES générées à l'aide de Llama fonctionnaient mieux que les intégrations SMILES générées à l'aide de GPT dans les tâches de propriété moléculaire et de prédiction DDI.
Illustration : Résultats des tâches de classification et de régression. (Source : article)Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!