Maison > Périphériques technologiques > IA > Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;

Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
Libérer: 2025-02-25 18:16:09
original
281 Les gens l'ont consulté

Si vous êtes dans la bioinformatique et l'analyse des données pour la biologie, vous trouverez cet article assez inspirant tout de suite.

Plus largement pour les scientifiques de l'IA, ils trouveront ici des moyens de sonder un LLM en le poussant à halluciner, puis à trouver des moyens de surmonter cette limitation.

Introduction

La Banque de données protéiques (PDB) sert de référentiel complet pour les données structurelles tridimensionnelles des macromolécules biologiques, fournissant des informations inestimables sur les fondements moléculaires des processus biologiques. Sa simple existence est ce qui a permis à des modèles d'IA comme Alphafold d'être développés!

Voici tous mes articles évalués par des pairs et les blogs sur la modélisation des protéines, CASP et Alphafold 2

"Sparks de l'intuition chimique" - et limitations brutes! - Dans Alphafold 3

La navigation efficace et la recherche d'entrées dans le PDB est essentielle pour les travaux modernes en biologie; Cependant, malgré un moteur de recherche assez complet, plusieurs questions sont difficiles à poser. Mais il s'avère que, comme je l'ai trouvé et le rapport ici, nous pouvons maintenant interroger le PDB avec des demandes de langage naturel parce que, comme vous l'avez vu dans l'article de ce titre, GPT-4O connaît la Banque de données Protein!

It It

À partir de certains tests que j'ai fait par curiosité, j'ai découvert qu'Openai a clairement inclus du contenu PDB (ou du contenu qui inclut les informations PDB, j'en discuterai plus tard) dans la formation de certains de ses modèles de langues grands (LLMS ), au moins dans la formation de GPT-4O. Après avoir découvert cela, je me suis mis à jouer avec cela, puis j'ai associé quelques idées qui sont venues de mes chats avec GPT-4O avec des tests de détermination de la structure en utilisant Alphafold 3.

Ce que j'imagine en fonction de mes résultats, c'est qu'avec les progrès de l'intelligence artificielle, en particulier dans les modèles de traitement du langage naturel, les chercheurs peuvent désormais rechercher plus facilement et ainsi utiliser des informations structurelles pertinentes du PDB. La capacité d'interroger le PDB avec des demandes de langage naturel est assez puissante comme vous le verrez dans les nombreux exemples que je présente, permettant une exploration approfondie des structures biomoléculaires, des complexes et des assemblages, y compris non seulement des protéines pliées mais aussi des acides nucléiques, désordonnés Protéines et petites molécules, toutes avec des liens directs vers des données structurelles validées expérimentalement sous la forme d'entrées PDB associées.

Plus précisément, à travers de nombreux exemples, je vais démontrer comment GPT-4O peut servir à identifier les entrées PDB pertinentes associées à un terme de recherche complexe qui pourrait ne pas fonctionner bien si vous le saisissez simplement dans la zone de recherche régulière disponible sur les sites PDB. Mes exemples couvrent certaines interactions assez pertinentes pour la biologie et la pharmacie, comme GLIVEC (Imatinib, un médicament anticancéreux) lié à diverses cibles kinases, les régions intrinsèquement désordonnées (IDR) engageant avec des partenaires de liaison et les modifications post-traductionnelles (PTM) influençant les interactions. Dans certains exemples, j'explore davantage le potentiel d'utiliser Alphafold 3 pour modéliser ces interactions dans l'espace, fournissant efficacement un pont entre la récupération PDB basée sur LLM et la visualisation 3D.

Dans ce qui suit, j'explique mon enquête en tant que questions posées à GPT-4O, suivies de ses réponses brutes et dans certains cas des images que j'ai préparées à illustrer certaines analyses en aval que j'ai faites sur des exemples sélectionnés.

Exploration 1: Connaissez-vous les codes PDB pour un exemple de glivec (imatinib) lié à une kinase?

J'ai demandé à Chatgpt-4o "Connaissez-vous les codes PDB pour un exemple de glivec (imatinib) lié à une kinase?" Et…

Chatgpt a dit:

Oui, GLIVEC (Imatinib) est un inhibiteur bien connu de la tyrosine kinase, et plusieurs structures du PDB le montrent lié à ses kinases cibles. Voici quelques exemples clés:

  1. Abl Kinase lié à l'imatinib

Code PDB: 1iep

Description: C'est l'une des premières structures montrant l'imatinib lié à la kinase ABL, la cible dans la leucémie myélogène chronique (CML). L'imatinib se lie à la conformation inactive de l'ABL, la stabilisant et empêchant l'activation de la kinase.

Voici mon chèque - je l'ai fait pour tous les exemples fournis par ChatGPT-4O, mais je n'en montre que quelques-uns. Vous voyez ici que PDB 1IEP est un domaine kinase complexé avec Sti-571, qui correspond à l'imatinib dans la spécification du ligand de PDB:

Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;

Chatgpt-4o a ensuite poursuivi avec plus d'exemples:

  1. kinase C-kit lié à l'imatinib

CODE PDB: 1T46

Description: L'imatinib se lie également à la tyrosine kinase du récepteur C-Kit, qui est hyperactive dans certains cancers, y compris les tumeurs stromales gastro-intestinales (GIST). Cette structure montre l'imatinib lié au site de liaison à l'ATP de C-kit, inhibant son activité kinase.

  1. pdgfr kinase lié à l'imatinib

Code PDB: 1xbb

Description: L'imatinib se lie à la kinase du récepteur du facteur de croissance dérivé des plaquettes (PDGFR), une autre kinase impliquée dans divers cancers. Cette structure montre comment l'imatinib inhibe PDGFR en se liant à sa conformation inactive.

  1. ABL kinase mutant (T315i) lié à l'imatinib

CODE PDB: 3GVU

Description: Cette structure montre la kinase ABL avec une mutation T315I, qui est associée à une résistance à l'imatinib chez certains patients cancéreux. Cette mutation modifie le site de liaison, réduisant l'efficacité de l'imatinib et met en évidence les mécanismes de résistance aux médicaments.

Ces structures illustrent comment l'imatinib stabilise sélectivement les formes inactives de kinases comme ABL, C-KIT et PDGFR, aidant à contrôler la prolifération cellulaire anormale dans divers cancers.

Exploration 2: connaissez-vous les codes PDB pour un exemple de région intrinsèquement désordonnée liée à une autre protéine?

Cette fois, je l'ai demandé "Connaissez-vous les codes PDB pour un exemple de région intrinsèquement désordonnée liée à une autre protéine?". Et là, il est allé:

Chatgpt a dit:

Oui, il existe plusieurs structures bien caractérisées dans le PDB où une région intrinsèquement désordonnée (IDR) d'une protéine se lie à une autre protéine. Ces IDR adoptent généralement une structure définie lors de la liaison, qui est essentielle pour leurs fonctions de régulation ou de signalisation. Voici quelques exemples bien connus:

  1. P53 Domaine de transactivation lié à mdm2

Code PDB: 1YCR

Description: Le domaine de transactivation N-terminal de p53, qui est intrinsèquement désordonné, se lie à l'oncoprotéine MDM2. Cette interaction régule la stabilité et la fonction p53.

  1. e1a de l'adénovirus lié à rb

Code PDB: 1lxe

Description: La protéine E1A intrinsèquement désordonnée de l'adénovirus se lie à la protéine du rétinoblastome (RB), inhibant la fonction de RB dans le contrôle du cycle cellulaire.

  1. C-Myc Transactivation Domaine lié à TAZ1 de CBP

CODE PDB: 1SB0

Description: Le domaine de transactivation désordonné de C-Myc adopte une structure alpha-hélicoïdale lorsqu'elle se lie au domaine TAZ1 de CBP, un co-activateur transcriptionnel.

  1. p27kip1 lié à la cycline a / cdk2

CODE PDB: 1JSU

Description: Le P27KIP1 intrinsèquement désordonné se lie et inhibe le complexe cycline A / CDK2 en enroulant autour des sous-unités cycline et CDK. Cette interaction joue un rôle clé dans la régulation du cycle cellulaire.

  1. ASH1 Région intrinsèquement désordonnée liée au chromodomaine du polycomb

CODE PDB: 2L3J

Description: La région intrinsèquement désordonnée de ASH1 interagit avec le chromodomaine du polycomb (PC), un régulateur du silence transcriptionnel, en adoptant une forme structurée lors de la liaison.

  1. pkid de CREB lié au domaine Kix de CBP

Code PDB: 1kdx

Description: Le domaine inductible par la kinase phosphorylée (PKID) du CREB, qui est intrinsèquement désordonné, se lie au domaine Kix de CBP. La phosphorylation induit une formation d'hélice alpha dans PKID, stabilisant l'interaction.

  1. Facteur de transcription ETS1 lié à l'ADN

CODE PDB: 2NNY

Description: La région réglementaire désordonnée de ETS1 est partiellement ordonnée lors de l'ADN de liaison, un exemple de région désordonnée qui adopte la structure lors de l'interaction avec un partenaire non protéique.

  1. Domaine de dégradation dépendante de l'oxygène HIF-1α lié à VHL

CODE PDB: 1LQB

Description: Le domaine de dégradation dépendant de l'oxygène de HIF-1α, qui est intrinsèquement désordonné, se lie à la protéine Von Hippel-Lindau (VHL). Cette interaction marque HIF-1α pour la dégradation dans des conditions normoxiques.

  1. protéine tau liée aux microtubules

Code PDB: 5SYF

Description: Tau est une protéine intrinsèquement désordonnée qui interagit avec les microtubules. Lors de la liaison, les régions spécifiques de tau adoptent des conformations structurées, aidant à stabiliser l'assemblage des microtubules.

  1. HISTONE H1 DÉSEMBLAGE LIGNE À ADN ou HISTONE CHAPERONS

Code PDB: 2lxd

Description: La queue C-terminale désordonnée de l'histone H1 lie l'ADN et les chaperons d'histone, adoptant une structure partielle lors de la liaison. Cette interaction joue un rôle dans le compactage de la chromatine.

Ces structures présentent la propriété "pliage de liaison" de nombreux IDR, où ils adoptent des structures secondaires ou tertiaires spécifiques en présence de leurs partenaires de liaison, facilitant souvent des processus cellulaires critiques comme la signalisation, la régulation et l'expression des gènes.

Exemple: PDB 1YCR, y compris le rétro-prédiction avec Alphafold 3 en utilisant les protéines complètes

Je me suis ensuite mis à regarder certains de ces exemples pratiques. PDB 1YCR (première réponse fournie ici par ChatGPT-4O) est une structure de p53, une protéine liée au cancer de diverses manières et qui contient plusieurs résidus désordonnés qui se lient à d'autres protéines. Ici, dans ce fichier PDB, il a été surpris en interaction avec MDM2. Vous voyez cela clair dans la structure expérimentale en haut à gauche de la figure, où un segment court de MDM2 se lie à P53 comme une hélice. Et vous voyez également cela dans la prédiction d'Alphafold 3 pour le complexe complet, ce qui suggère quelques interactions supplémentaires.

Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;

Exploration 3: Proposer des entrées PDB pour les protéines liées à d'autres impliquant une modification post-traductionnelle?

Chatgpt a dit:

certainement! Voici plusieurs entrées PDB avec des protéines impliquées dans des interactions médiées par des modifications post-traductionnelles (PTM). Ces structures fournissent un aperçu de la façon dont les PTM comme la phosphorylation, la méthylation et l'acétylation influencent les interactions protéine-protéine.

  1. Reconnaissance de phosphorylation

14–3–3 protéine lié au peptide phosphorylé

CODE PDB: 1QJA

Description: La structure montre la protéine 14–3–3 liée à un peptide phosphorylé, illustrant comment 14–3–3 reconnaît et se lie aux résidus de phosphosérine.

Domaine BRCT lié au peptide phosphorylé

Code PDB: 1T29

Description: Cette structure présente le domaine BRCA1 BRCT lié à un peptide phosphorylé de Bach1, démontrant comment la phosphorylation est reconnue par les domaines BRCT.

  1. Reconnaissance de l'ubiquitine

Domaine de liaison à l'ubiquitine de p62 lié à l'ubiquitine

CODE PDB: 3B0F

Description: La structure décrit le domaine UBA (ubiquitine-associé) de p62 lié à l'ubiquitine, soulignant comment p62 reconnaît et lie les substrats polyubiquitinés pour l'autophagie.

  1. Reconnaissance de méthylation

Le chromodomaine de HP1 lié à l'histone méthylée

CODE PDB: 3C1A

Description: Le chromodomaine HP1 interagit avec un peptide histone triméthylé H3K9, présentant comment la méthylation sur les histones est reconnue et contribue à la régulation transcriptionnelle.

  1. Reconnaissance d'acétylation

L'histone acétylée H4 liée au bromodomaine

CODE PDB: 3MXF

Description: Cette structure présente le bromodomaine de la protéine BET BRD4 lié à une queue d'histone H4 acétylée, illustrant comment l'acétylation des histones est reconnue et intervient sur les interactions de la chromatine.

  1. NEDDYLATION RECONDITION

Cullin-Ring E3 ligase lié à Nedd8

CODE PDB: 2ZVJ

Description: La structure montre l'interaction entre une ligase E3 Cullin-Ring et la modification NEDD8, mettant en évidence le rôle de la néddylation dans le système ubiquitine-protéasome.

  1. phosphorylation de p27kip1 et de liaison cycline-cdk

CDK2-cycline Un complexe lié au p27kip1

phosphorylé p27kip1

CODE PDB:

1JSU

Description: Cette structure montre le complexe cycline A / CDK2 interagissant avec la forme phosphorylée de p27kip1, démontrant comment la phosphorylation module la liaison et l'inhibition des kinases dépendant de la cycline.

  1. glycosylation

Domaine de lectine de la concanavaline A lié à la glycoprotéine mannosylée

Code PDB: 3fqz

Description: Cette structure présente la concanavaline A, une lectine végétale, liée à une glycoprotéine mannosylée, illustrant comment la glycosylation peut médier les interactions protéine-protéine.

  1. phosphorylation du facteur de transcription ETS1

ets1 lié à l'ADN

Code PDB: 2nny

DESCRIPTION: La région régulatrice désordonnée de ETS1 est partiellement commandée lors de la liaison de l'ADN, montrant comment la phosphorylation affecte sa capacité à interagir avec les séquences cibles.

  1. acétylation de p53

p53 acétylé lié à mdm2

Code PDB: 1YCR

Description: L'interaction entre p53 acétylé et MDM2 illustre comment l'acétylation peut affecter la stabilité et la régulation de p53, un suppresseur de tumeur critique.

  1. sumoylation

sumo-1 lié à un motif d'interaction à sumo

CODE PDB: 4C0N

Description: Cette structure montre une protéine contenant un motif d'interaction au sumo lié à SUMO-1, soulignant comment la sumoylation régule diverses interactions protéiques.

Exemple: PDB 1QJA, y compris le rétro-prédiction avec Alphafold 3 (qui peut traiter les résidus phosphorylés!)

PDB 1QJA (première réponse fournie par ChatGPT-4O) est une structure de la protéine appelée 14–3–3 liée à un peptide avec une phosphorylation (atome de P entouré de 4 atomes O). Dans l'image ci-dessous, les structures 3D correspondent au complexe observé entre la protéine et le peptide phosphorylé (gauche: vue complète, à droite: zoomer sur le phosphate). Vous pouvez voir comment le groupe de phosphate établit plusieurs contacts (lignes pointillées). Les graphiques 2D verts ci-dessous sont des parcelles PAE d'Alphafold 3, montrant de meilleures statistiques (plus vertes) pour le peptide interagissant avec la protéine lorsque le groupe phosphate est présent (à droite).

Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;

GPT-4O a-t-il vraiment appris le PDB lors de la formation?

Étant donné qu'Openai n'a pas répondu à cela lorsque j'ai demandé par e-mail, je viens de demander à Chatgpt-4o lui-même. Et la réponse est… un peu, mais pas tout à fait!

Ce que j'ai obtenu de Chatgpt, c'est qu'il était pas explicitement formé avec des entrées PDB (ce qui aurait été bien, car ils contiennent des résumés de papier et des tonnes d'autres données pour chaque entrée PDB). Cependant, Chatgpt a expliqué que son matériel de formation comprenait des articles, des préparations, des résumés et des documents éducatifs qui faisaient référence à ces entrées PDB; Et c'est comme ça que cela a appris sur un grand nombre d'entrées PDB.

Hallucinations des entrées PDB, et un moyen de les surmonter

Si ce qui précède est correct, c'est-à-dire si GPT-4O n'a pas été formé avec le PDB lui-même, mais avec des papiers et autres documents se référant à certaines structures PDB, alors il pourrait parfaitement arriver qu'il ne sache pas sur de nombreuses structures, Surtout ceux qui ne sont liés à aucun article. Suivant cette idée, je me suis mis à interroger Chatgpt-4o un peu plus profondément et à essayer de l'exposer.

Il m'a fallu un certain temps pour le casser, mais finalement j'ai réussi. Sur ma première question comme "Connaissez-vous PDB ID 1ci0?" (que le PDB montre non lié à aucun article), j'ai obtenu une réponse en toute confiance, mais à tort que cette entrée "décrit un cytochrome C553 de Desulfovibrio vulgaris ". L'entrée PDB explique cependant qu'il s'agit d'une autre protéine qui n'est ni un cytochrome C ni n'appartient à DESULFOVIBRIO VULGARIS .

Maintenant, c'est mauvais, très mauvais comme avec toutes les hallucinations. Mais encourageant, si je demande à Chatgpt-4o de faire une recherche en ligne (notez que le PDB est totalement ouvert), il distille les informations correctes:

L'ID PDB 1CI0 fait référence à la structure cristalline de pyridoxine-5′-phosphate (PNP) oxydase de Saccharomyces cerevisiae (levure du brasseur). Cette enzyme est classée comme une oxydoréductase et joue un rôle clé dans la voie métabolique de la vitamine B6. Il facilite la conversion de la pyridoxine-5′-phosphate en pyridoxal-5′-phosphate, une forme active de vitamine B6.

La structure a été déterminée en utilisant la diffraction des rayons X à une résolution de 2,7 Å, l'assemblage biologique étant un homo-dimère. L'expérience a été réalisée en utilisant des cristaux dérivés d'une protéine recombinante exprimée dans Escherichia coli . La structure comprend deux chaînes de protéines et est liée au mononucléotide Flavin Cofacteur (FMN), qui est crucial pour son activité enzymatique.

Cette entrée a été déposée en 1999 par Shi et al. et est souvent utilisé pour étudier les mécanismes de biosynthèse de la vitamine B6 et les applications potentielles en biotechnologie ou médecine 【7 】【 8 】【 10】.

… qui reflète essentiellement toutes les informations disponibles pour cette entrée au PDB et elle est en fait plus agréable que car elle explique l'acronyme et les noms courts comme "PNP" et nettoie toutes les données - comparez simplement avec le PDB Entrée:

Epic & # 8220; crossover & # 8221; Entre Alphafold 3 et GPT-4O & # 8217;

Alors? Utile ou pas?

Ma conclusion avec cette dernière expérience est qu'en dépit d'être parfaitement sujette à l'hallucination, la vérification croisée en forçant le chatppt à la recherche des entrées en ligne pourrait probablement surmonter ses problèmes d'hallucination.

Comme avec tous ces outils d'IA, nous avons besoin de prudence, mais l'approche de recherche est probablement fiable - mais avant de tirer des conclusions très spécifiques, vous feriez mieux de recouper la sortie du LLM vous-même.

Conclusion et prospects

Grâce à cette exploration, je visais à illustrer comment la biologie structurelle expérimentale, la modélisation moléculaire avec des outils comme Alphafold 3 et des LLM comme GPT-4O, peuvent converger, permettant aux chercheurs de rechercher et d'analyser les structures moléculaires de manière nouvelle, tous grâce à OpenAI y compris le contenu sur le PDB dans son ensemble de données de formation. D'après les problèmes d'hallucination que nous avons vus dans la dernière section, je propose que l'inclusion d'informations pour les entrées PDB explicitement sur la formation LLM puisse porter tout cela à un nouveau niveau, fonctionnant mieux et plus précisément. Pourtant, avec l'approche de recherche testée ci-dessus, on peut probablement travailler en sécurité que le LLM ne sera pas gaillé dans de fausses informations.

Je pense qu'en tirant parti de ces ressources combinées, les scientifiques peuvent beaucoup plus rapidement et mieux se familiariser avec la gamme de structures disponibles en relation avec un sujet donné; Probablement le plus utile lors du passage dans un nouveau sous-domaine spécifique de la biologie.

Je pense également que ces ressources jettent les bases de plus grâce à la façon dont les LLM et Alphafold 3 (ou des modèles similaires qui émergent maintenant) pourraient être couplés non seulement pour naviguer, mais aussi comprendre les biomolécules et leurs complexes de nouvelles façons. Peut-être même des graphiques moléculaires et des outils de modélisation qui bénéficient de la connaissance d'un LLMS sur le PDB pourraient également être créés qui permettent d'effectuer une manipulation et des analyses complexes des structures biomoléculaires à travers des commandes naturelles.

www.lucianoabriata.com J'écris sur tout ce qui réside dans ma vaste sphère d'intérêts: nature, science, technologie, programmation, etc. Abonnez-vous à recevoir mes nouvelles histoires par e-mail. Pour consulter les petits travaux, consultez ma page de services ici. Vous pouvez me contacter ici. Vous pouvez me donner un pourboire ici.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal