'Le meilleur des deux mondes', conception de molécules à partir de zéro, architecture de deep learning S4 pour la modélisation du langage chimique-IA-php.cn

Le meilleur des deux mondes, conception de molécules à partir de zéro, architecture de deep learning S4 pour la modélisation du langage chimique

Editor |. KX

Pembelajaran mendalam generatif sedang membentuk semula reka bentuk dadah. Model bahasa kimia (CLM), yang menjana molekul sebagai rentetan molekul, amat penting untuk proses ini.

Baru-baru ini, penyelidik dari Universiti Teknologi Eindhoven di Belanda memperkenalkan seni bina pembelajaran mendalam (S4) terkini ke dalam reka bentuk ubat de novo.

Model Jujukan Ruang Negeri Berstruktur (S4) mempunyai prestasi cemerlang dalam mempelajari sifat global jujukan, jadi bolehkah S4 memajukan pemodelan bahasa kimia direka dari awal?

Untuk memberikan jawapan, penyelidik menanda aras S4 secara sistematik terhadap CLM tercanggih pada pelbagai tugas penemuan ubat, seperti pengenalpastian sebatian bioaktif dan reka bentuk molekul seperti ubat dan produk semula jadi. S4 mempunyai keupayaan unggul untuk meneroka pelbagai perancah sambil mempelajari sifat molekul kompleks.

Akhirnya, 8 daripada 10 molekul yang direka oleh S4 diramalkan sangat aktif oleh simulasi dinamik molekul apabila digunakan secara prospektif pada perencat kinase.

Ringkasnya, S4 mempunyai potensi besar dalam pemodelan bahasa kimia, terutamanya dalam menangkap aktiviti biologi dan sifat molekul kompleks. Ini adalah kali pertama model ruang keadaan telah digunakan untuk tugas molekul.

Penyelidikan berkaitan bertajuk "Pemodelan bahasa kimia dengan model jujukan ruang keadaan berstruktur" dan diterbitkan dalam "Komunikasi Alam Semulajadi" pada 22 Julai.

Le meilleur des deux mondes, conception de molécules à partir de zéro, architecture de deep learning S4 pour la modélisation du langage chimique

Pautan kertas: https://www.nature.com/articles/s41467-024-50469-9

Merancang molekul dengan sifat yang diingini dari awal adalah masalah "jarum dalam timbunan jerami". Alam semesta kimia, yang mengandungi sehingga 10^60 molekul kecil, masih tidak diketahui.

Pembelajaran mendalam generatif boleh menghasilkan molekul yang diingini tanpa peraturan rekaan tangan, membolehkan cara yang menjimatkan masa dan kos rendah untuk meneroka alam semesta kimia. Khususnya, CLM telah menghasilkan reka bentuk bioaktif yang disahkan secara eksperimen dan menonjol sebagai penjana molekul yang berkuasa.

CLM menggunakan algoritma yang dibangunkan untuk pemprosesan jujukan untuk mempelajari "bahasa kimia", iaitu cara menjana molekul yang sah secara kimia (sintaks) dan mempunyai sifat yang dikehendaki (semantik). Ini dicapai dengan mewakili struktur molekul sebagai simbol rentetan, seperti Sistem Kemasukan Talian Input Molekul Mudah (SMILES). Rentetan molekul ini kemudiannya digunakan untuk latihan model dan penjanaan molekul seterusnya dalam bentuk teks.

Le meilleur des deux mondes, conception de molécules à partir de zéro, architecture de deep learning S4 pour la modélisation du langage chimique

Ilustrasi: Konsep utama model jujukan ruang keadaan berstruktur (S4) untuk pemodelan bahasa kimia. (Sumber: Kertas)

CLM Architecture:

Long Short-Term Short-Term (LSTM) model
Transformer Architecture

Structured State Space Sequence Model🜎S4 baru yang sedang membangun

Mempunyai "sifat dwi":
Latih keseluruhan jujukan input untuk mempelajari sifat global yang kompleks
- Aplikasi

Penyelidik menggunakan S4 untuk pemodelan bahasa kimia pada rentetan SMILES
Menanda aras terhadap pelbagai tugas yang berkaitan dengan reka bentuk ubat:
- Mempelajari aktiviti biologi
- Penerokaan produk kimia semula jadi

Reka bentuk molekul seperti dadah dan produk semula jadi:

Penyelidik menanda aras S4 terhadap CLM tercanggih
seperti reka bentuk molekul seperti dadah dan produk semula jadi
Pertama, Menganalisis keupayaan S4 untuk mereka bentuk dadah -seperti molekul kecil (panjang SENYUM kurang daripada 100 token) yang diekstrak daripada pangkalan data ChEMBL
🎜1. Tous les CLM ont généré plus de 91 % de molécules valides, 91 % de molécules uniques et 81 % de nouvelles molécules.
S4 conçoit les molécules les plus efficaces, uniques et nouvelles en générant plus de nouvelles molécules que la ligne de base (environ 4 000 à plus de 12 000) et montre une bonne capacité à apprendre la « grammaire chimique » des chaînes SMILES.
Le potentiel de S4 par rapport aux méthodes de conception de novo existantes est encore confirmé par le benchmark MOSES, où S4 se classe systématiquement parmi les méthodes d'apprentissage profond les plus performantes.
S4 est également testé plus en détail contre des entités moléculaires plus difficiles que les molécules de type médicament.
À cette fin, les chercheurs ont évalué sa capacité à concevoir des produits naturels (NP).
Par rapport aux petites molécules synthétiques, les NP ont tendance à avoir des structures moléculaires et des systèmes cycliques plus complexes, ainsi qu'une plus grande proportion d'atomes de carbone hybrides sp3 et de centres chiraux.
Ces caractéristiques correspondent en moyenne à des séquences SMILES plus longues, avec des dépendances à plus longue portée, et font des produits naturels des cas de test difficiles pour le CLM.

Tous les CLM peuvent concevoir des produits naturels, mais leurs performances sont inférieures à celles des molécules de type médicament. Les conceptions S4 ont le plus grand nombre de molécules efficaces, avec environ 6 000 à 12 000 molécules de plus que S4 (7 à 13 % de mieux), tandis que LSTM a la plus grande nouveauté, avec environ 2 000 molécules de plus (2 %) que S4.
Enfin, la vitesse de formation et de génération des architectures CLM lors de l'augmentation de la longueur des SMILES a également été analysée pour tester leur applicabilité pratique lors de la conception de molécules plus grosses telles que des produits naturels. L'analyse souligne qu'en raison de sa double nature, S4 est aussi rapide que GPT pendant l'entraînement (tous deux ~1,3 fois plus rapide que LSTM) et le plus rapide en termes de génération. Cela préconise en outre l’introduction de S4 en tant que méthode efficace de conception moléculaire, offrant « le meilleur des deux mondes » par rapport au GPT et au LSTM.
Conception prospective de novo
Les chercheurs utilisant S4 ont mené une étude prospective in silico axée sur la conception d'inhibiteurs de la protéine kinase 1 activée par un mitogène (MAPK1), une cible pertinente pour le traitement des tumeurs. L'activité biologique putative de la conception a ensuite été évaluée par dynamique moléculaire (MD).
Illustration : Conception prospective de novo d'inhibiteurs putatifs de MAPK1 utilisant S4. (Source : article) Le modèle S4 a été affiné, puis les cinq dernières époques du modèle affiné ont été utilisées pour générer 256 000 molécules. Les conceptions ont été classées et filtrées en fonction du score de log-vraisemblance et de la similarité de l'échafaudage avec l'ensemble de formation, et les 10 molécules ayant obtenu les scores les plus élevés ont été caractérisées davantage à l'aide de simulations MD.
8 conceptions sur 10 devaient être bioactives contre les cibles prévues par MD, avec des affinités prédites comparables ou supérieures à celles des molécules affinées les plus proches, ces résultats confirment davantage le potentiel du S4 pour la conception de médicaments de novo.
Opportunités pour la molécule S4 En résumé, cette étude est la première à introduire des modèles d'espace d'état dans la modélisation du langage chimique, en se concentrant sur les espaces d'état structurés (S4). La double nature unique de S4, incluant la convolution et la génération de boucles pendant l'entraînement, le rend particulièrement adapté à la conception de novo à partir de chaînes SMILES.
Les chercheurs ont mené une comparaison systématique avec GPT et LSTM sur diverses tâches de découverte de médicaments, révélant les avantages de S4 : bien que la génération de boucles (LSTM et S4) soit supérieure dans l'apprentissage de la grammaire chimique et l'exploration de divers échafaudages, elle n'est pas efficace pour l'ensemble de l'apprentissage d'ensemble. des séquences SMILES (GPT et S4) fonctionnent bien pour capturer certaines propriétés complexes telles que l'activité biologique.
S4 a une double nature, « le meilleur des deux mondes » : il est aussi performant, voire meilleur, que les LSTM dans la conception de molécules efficaces et diversifiées, et surpasse systématiquement les références dans la capture de propriétés moléculaires complexes tout en maintenant l'efficacité informatique. L'application de
S4 dans l'inhibition de MAPK1 a été validée par des simulations MD, démontrant ainsi son potentiel pour la conception de molécules bioactives puissantes. À l’avenir, les chercheurs combineront prospectivement S4 avec des expériences en laboratoire humide pour améliorer son impact sur le terrain.
De nombreux aspects du S4 restent encore à explorer en science moléculaire, tels que son potentiel dans des séquences plus longues (par exemple, des séquences peptidiques et protéiques macrocycliques) et d'autres tâches moléculaires (par exemple, la planification de réactions organiques et la conception de médicaments basés sur la structure).
À l'avenir, l'application de S4 dans la découverte moléculaire continuera de croître et pourrait remplacer les modèles de langage chimique largement utilisés tels que LSTM et GPT.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!