Wenn Sie sich für Bioinformatik und Datenanalyse für die Biologie interessieren, finden Sie diesen Artikel sofort inspirierend.
im weiteren Sinne für KI -Wissenschaftler werden sie hier Möglichkeiten finden, ein LLM zu untersuchen, indem sie ihn zum Halluzinieren drängen und dann Wege finden, um diese Einschränkung zu überwinden.
Die Proteindatenbank (PDB) dient als umfassendes Repository für dreidimensionale Strukturdaten biologischer Makromoleküle und liefert unschätzbare Einblicke in die molekularen Grundlagen biologischer Prozesse. Seine bloße Existenz ermöglichte es, KI -Modellen wie Alphafold zu entwickeln!
Hier sind alle meine von Experten begutachten und Blog-Artikel über Proteinmodellierung, Casp und Alphafold 2
"Funken der chemischen Intuition" - und grobe Einschränkungen! - in Alphafold 3
effizientes Surfen und Sucheinträge in der PDB ist für moderne Arbeiten in der Biologie von wesentlicher Bedeutung. Trotz einer ziemlich vollständigen Suchmaschine sind einige Fragen schwer zu stellen. Es stellt sich jedoch heraus, dass wir, wie ich hier hier gefunden und gemeldet habe
in eskamen.
Was ich auf der Grundlage meiner Ergebnisse basiert, ist, dass Forscher mit den Fortschritten in der künstlichen Intelligenz, insbesondere in natürlichen Sprachverarbeitungsmodellen, nun einfacher suchen und somit relevante Strukturinformationen aus der PDB verwenden können. Die Fähigkeit, die PDB mit natürlichen Sprachanfragen abzufragen, ist ziemlich stark Proteine und kleine Moleküle mit direkten Links zu experimentell validierten Strukturdaten in Form von zugehörigen PDB -Einträgen.
Insbesondere werde ich in vielen Beispielen zeigen, wie GPT-4O dazu dienen kann, relevante PDB-Einträge zu identifizieren, die einem komplexen Suchbegriff zugeordnet sind, der möglicherweise nicht gut funktioniert, wenn Sie es einfach in das reguläre Suchfeld auf den PDB-Sites eingeben. Meine Beispiele behandeln einige relevante Wechselwirkungen für Biologie und Pharma, wie GLIVEC (Imatinib, ein Antikrebsmedikament), die an verschiedene Kinaseziele gebunden sind, intrinsisch ungeordnete Regionen (IDRs), die sich mit Bindungspartnern beschäftigen, und posttranslationale Modifikationen (PTMs), die die Interaktionen beeinflussen. In einigen der Beispiele erforsche ich das Potenzial der Verwendung von Alphafold 3, um diese Wechselwirkungen im Weltraum zu modellieren, und liefert effektiv eine Brücke zwischen LLM-basierter PDB-Retrieval und 3D-Visualisierung.
Im Folgenden formuliere ich meine Untersuchung als Fragen an GPT-4O, gefolgt von den rohen Antworten und in einigen Fällen, in denen ich einige nachgeschaltete Analysen zu veranschaulichen habe, die ich an ausgewählten Beispielen durchgeführt habe.
Ich habe Chatgpt-4o gefragt: "Kennen Sie PDB-Codes für ein Beispiel von GLIVEC (Imatinib), das an eine Kinase gebunden ist?" und…
Chatgpt sagte:
Ja, GLIVEC (Imatinib) ist ein bekannter Tyrosinkinase-Inhibitor, und mehrere Strukturen in der PDB zeigen, dass es an seine Zielkinasen gebunden ist. Hier sind einige wichtige Beispiele:
- ABL -Kinase an Imatinib
gebundenPDB -Code:
1iepBeschreibung:
Dies ist eine der frühesten Strukturen, die imatinib mit der ABL -Kinase, dem Ziel bei chronischer myelogener Leukämie (CML), gezeigt werden. Imatinib bindet an die inaktive Konformation von ABL, stabilisiert sie und verhindert die Kinaseaktivierung.
Hier ist mein Scheck-ich habe dies für alle Beispiele von Chatgpt-4o gemacht, aber ich zeige nur einige. Sie sehen hier, dass PDB 1iep eine Kinasedomäne ist, die mit STI-571 komplexiert ist und der Ligandenspezifikation von PDB imatinib entspricht:
chatgpt-4o dann fuhr dann mit weiteren Beispielen fort:
gebunden ist
- c-kit-Kinase, die an Imatinib
PDB -Code:
1T46Beschreibung:
Imatinib bindet auch an die C-Kit-Rezeptor-Tyrosinkinase, die bei bestimmten Krebsarten, einschließlich gastrointestinaler Stromazumoren (GIST), überaktiv ist. Diese Struktur zeigt, dass Imatinib an die ATP-Bindungsstelle von C-Kit gebunden ist und seine Kinaseaktivität hemmt.gebunden
- PDGFR -Kinase an Imatinib
PDB -Code:
1xbb
Beschreibung: Imatinib bindet an die von Blutplättchen abgeleitete Kinase (PDGFR), eine andere Kinase, die an verschiedenen Krebsarten beteiligt ist. Diese Struktur zeigt, wie Imatinib PDGFR hemmt, indem sie an seine inaktive Konformation binden.
- ABL -Kinase -Mutante (T315i), die an Imatinib
gebunden istPDB -Code: 3GVU
Beschreibung: Diese Struktur zeigt die ABL -Kinase mit einer T315I -Mutation, die bei einigen Krebspatienten mit einer Resistenz gegen Imatinib verbunden ist. Diese Mutation verändert die Bindungsstelle und verringert die Wirksamkeit von Imatinib und zeigt Mechanismen der Arzneimittelresistenz.
Diese Strukturen veranschaulichen, wie Imatinib die inaktiven Formen von Kinasen wie ABL, C-Kit und PDGFR selektiv stabilisiert, was zur Kontrolle der abnormalen Zellproliferation bei verschiedenen Krebsarten beiträgt.
Diesmal fragte ich es "Wissen Sie, dass PDB -Codes für ein Beispiel für eine intrinsisch ungeordnete Region, die an ein anderes Protein gebunden ist?". Und da ging es:
Chatgpt sagte:
Beispiel: PDB 1YCR, einschließlich Rückvorhersage mit Alphafold 3 unter Verwendung der vollständigen Proteine Ja, es gibt mehrere gut charakterisierte Strukturen in der PDB, in denen eine intrinsisch ungeordnete Region (IDR) eines Proteins an ein anderes Protein bindet. Diese IDRs verwenden typischerweise eine definierte Struktur bei Bindung, die für ihre regulatorischen oder Signalfunktionen von entscheidender Bedeutung ist. Hier sind einige bekannte Beispiele:
- p53 Transaktivierungsdomäne, die an MDM2
gebunden sindPDB -Code: 1ycr
Beschreibung: Die N-terminale Transaktivierungsdomäne von p53, die intrinsisch ungeordnet ist, bindet an das MDM2-Onkoprotein. Diese Wechselwirkung reguliert die Stabilität und Funktion von p53.
- e1a von adenovirus gebunden an rb
PDB -Code: 1lxe
Beschreibung: Das intrinsisch gestörte E1A -Protein aus Adenovirus bindet an das Retinoblastom (RB) -Protein und hemmt die Funktion von Rb bei der Zellzykluskontrolle.
- c-Myc-Transaktivierungsdomäne, die an TAZ1 von CBP
gebunden sindPDB -Code: 1SB0
Beschreibung: Die ungeordnete Transaktivierungsdomäne von c-myc verwendet eine alpha-helikale Struktur, wenn sie an die TAZ1-Domäne von CBP bindet, einem Transkriptions-Co-Aktivator.
- p27kip1 an Cyclin a/cdk2
gebundenPDB -Code: 1JSU
Beschreibung: Das intrinsisch gestörte p27kip1 bindet und hemmt den Cyclin A/Cdk2 -Komplex, indem Sie die Cyclin- und CDK -Untereinheiten umwickeln. Diese Interaktion spielt eine Schlüsselrolle in der Zellzyklusregulation.
- ASH1 Intrinsisch gestörte Region, die an das Chromodomäne von Polycomb
gebunden istPDB -Code: 2L3J
Beschreibung: Der intrinsisch ungeordnete Bereich von Ash1 interagiert mit der Chromodomäne von Polycomb (PC), einem Regulator der Transkriptionssterben, die bei der Bindung eine strukturierte Form annimmt.
- PKID von CREB, die an die KIX -Domäne von CBP
gebunden sind,PDB -Code:
1kdxBeschreibung: Die phosphorylierte Kinase-induzierbare Domäne (PKID) von CREB, die intrinsisch ungeordnet ist, bindet an die KIX-Domäne von CBP. Phosphorylierung induziert eine Alpha-Helix-Bildung in PKID, wodurch die Wechselwirkung stabilisiert wird.
- ETS1 -Transkriptionsfaktor an DNA
gebundenPDB -Code: 2nny
Beschreibung: Die ungeordnete regulatorische Region von ETS1 wird teilweise nach Bindung von DNA geordnet, ein Beispiel für eine ungeordnete Region, die die Struktur bei der Interaktion mit einem Nicht-Protein-Partner übernimmt.
- HIF-1α-Sauerstoffabhängigkeitsdomäne, die an VHL
gebunden sindPDB -Code: 1lqb
Beschreibung: Die sauerstoffabhängige Abbaudomäne von HIF-1α, die intrinsisch ungeordnet ist, bindet an das von Hippel-Lindau (VHL) -Protein. Diese Wechselwirkung markiert HIF-1α für den Abbau unter normoxischen Bedingungen.
- Tau -Protein, die an Mikrotubuli gebunden sind
PDB -Code: 5Syf
Beschreibung: Tau ist ein intrinsisch ungeordnetes Protein, das mit Mikrotubuli interagiert. Bei der Bindung nehmen spezifische Regionen von Tau strukturierte Konformationen an, die dazu beitragen, die Mikrotubuli -Montage zu stabilisieren.
- Histon -H1 -Störungen, die an DNA- oder Histon -Chaperone gebunden sind
PDB -Code: 2lxd
Beschreibung: Der ungeordnete C-terminale Schwanz von Histon H1 bindet DNA- und Histon-Chaperone, wobei die Teilstruktur bei der Bindung verwendet wird. Diese Interaktion spielt eine Rolle bei der Chromatinverdichtung.
Diese Strukturen zeigen die Eigenschaft vieler IDRs, in der sie in Gegenwart ihrer Bindungspartner spezifische sekundäre oder tertiäre Strukturen anwenden, und erleichtert kritische zelluläre Prozesse wie Signalübertragung, Regulation und Genexpression. 🎜>
Chatgpt sagte:
sicher! Hier sind mehrere PDB-Einträge mit Proteinen, die an Wechselwirkungen beteiligt sind, die durch posttranslationale Modifikationen (PTMs) vermittelt werden. Diese Strukturen geben Einblicke in die Art und Weise, wie PTMs wie Phosphorylierung, Methylierung und Acetylierung Protein-Protein-Wechselwirkungen beeinflussen.
- Phosphorylierungserkennung
14–3–3 Protein, das an phosphoryliertes Peptid gebunden ist
PDB -Code: 1QJa
Beschreibung: Die Struktur zeigt das an ein phosphorylierte Peptid gebundene 14–3–3 -Protein, das zeigt, wie 14–3–3 Phosphoserinreste erkennt und bindet.
Brct -Domäne, die an phosphoryliertes Peptid gebunden ist
PDB -Code: 1T29
Beschreibung: Diese Struktur enthält die BRCA1 -BRCT -Domäne, die an ein phosphoryliertes Peptid aus Bach1 gebunden ist, was zeigt, wie die Phosphorylierung durch BRCT -Domänen erkannt wird.
- Ubiquitin -Erkennung
Ubiquitin-Bindungsdomäne von p62 an Ubiquitin
gebundenPDB -Code: 3b0f
Beschreibung: Die Struktur zeigt die an Ubiquitin gebundene UBA-Domäne von p62, wobei p62 polyubiquitinierte Substrate für Autophagie erkennt und bindet.
- Methylierungserkennung
Chromodomäne von HP1 gebunden an methyliertes Histon
PDB -Code: 3c1a
Beschreibung: Die HP1 -Chromodomäne interagiert mit einem trimethylierten Histon -H3K9 -Peptid und zeigt, wie die Methylierung an Histonen erkannt wird und zur Transkriptionsregulation beiträgt.
- Acetylierungserkennung
acetyliertes Histon H4, das an Bromodomain gebunden ist
PDB -Code: 3mxf
Beschreibung: Diese Struktur zeigt die Bromodomäne des BET -Proteins Brd4, die an einen acetylierten Histon -H4 -Schwanz gebunden ist, und veranschaulicht, wie die Acetylierung von Histonen erkannt wird, und vermittelt Chromatinwechselwirkungen.
- Neddylierungserkennung
cullin-ring E3-Ligase, die an Nedd8
gebunden istPDB -Code: 2Zvj
Beschreibung: Die Struktur zeigt die Wechselwirkung zwischen einer Cullin-Ring-E3-Ligase und der NEDD8-Modifikation, wobei die Rolle der Neddylierung im Ubiquitin-Proteasom-System hervorgehoben wird.
- Phosphorylierung von p27KIP1 und Cyclin-CDK-Bindung
cdk2-cyclin Ein Komplex, das an phosphorylierte p27kip1
gebunden istPDB -Code: 1JSU
Beschreibung: Diese Struktur zeigt den Cyclin A/CDK2-Komplex, der mit der phosphorylierten Form von p27KIP1 interagiert, und zeigt, wie die Phosphorylierung die Bindung und Hemmung von Cyclin-abhängigen Kinasen moduliert.
- Glycosylierung
Lectin -Domäne von Concanavalin A, gebunden an mannosyliertes Glykoprotein
PDB -Code: 3fqz
Beschreibung: Diese Struktur zeigt Concanavalin A, ein Pflanzenliese, das an ein Mannosyliertes Glykoprotein gebunden ist und veranschaulicht, wie die Glykosylierung Protein-Protein-Wechselwirkungen vermitteln kann.
- Phosphorylierung des ETS1 -Transkriptionsfaktors
ETS1 an DNA
gebundenPDB -Code: 2nny
Beschreibung: Die ungeordnete regulatorische Region von ETS1 wird teilweise nach Bindungs -DNA geordnet, wobei sie zeigt, wie die Phosphorylierung die Fähigkeit zur Interaktion mit Zielsequenzen beeinflusst.
- Acetylierung von p53
acetyliert p53 an Mdm2
gebundenPDB -Code: 1ycr
Beschreibung: Die Wechselwirkung zwischen acetyliertem p53 und mdm2 zeigt, wie sich die Acetylierung auf die Stabilität und Regulation von p53 auswirken kann, einem kritischen Tumorsuppressor.
- sumoylierung
sumo-1 an ein Sumo-interagierendes Motiv
gebundenPDB -Code: 4c0n
Beschreibung: Diese Struktur zeigt ein Protein, das ein Sumo-interagierendes Motiv enthält, das an SUMO-1 gebunden ist und hervorhebt, wie die Sumoylierung verschiedene Proteinwechselwirkungen reguliert.
PDB 1QJA (erste Antwort von Chatgpt-4O) ist eine Struktur des Proteins, die als 14–3–3 an ein Peptid mit einer Phosphorylierung (P-Atom von 4 O-Atomen) gebunden ist. Im Bild unten entsprechen die 3D -Strukturen dem Komplex, der zwischen dem Protein und dem phosphorylierten Peptid beobachtet wird (links: Vollsicht, rechts: Zoom auf dem Phosphat). Sie können sehen, wie die Phosphatgruppe mehrere Kontakte herstellt (gestrichelte Linien). Die nachstehenden grünen 2D -Diagramme sind die PAE -Diagramme von Alphafold 3 und zeigen eine bessere Statistik (mehr grün) für das Peptid, das mit dem Protein interagiert, wenn die Phosphatgruppe vorhanden ist (rechts).
Da Openai dies nicht antwortete, als ich per E-Mail gefragt habe, habe ich gerade Chatgpt-4o selbst gefragt. Und die Antwort ist ... irgendwie, aber nicht ganz!
Was ich von Chatgpt bekommen habe, ist, dass es nicht mit PDB -Einträgen ausdrücklich trainiert wurde (was für jeden PDB -Eintrag für jeden PDB -Eintrag auf Papierabträge und Tonnen anderer Daten enthalten wäre). Chatgpt erklärte jedoch, dass sein Trainingsmaterial Papiere, Vordruck, Abstracts und Bildungsdokumente umfasste, die sich auf diese PDB -Einträge verwiesen. Und so hat es so über eine große Anzahl von PDB -Einträgen erfahren.
Halluzinationen von PDB -Einträgen und eine Möglichkeit, sie zu überwinden.
Ich habe einige Zeit gebraucht, um es zu knacken, aber schließlich habe ich es geschafft. Auf meine erste Frage wie "Kennen Sie PDB ID 1ci0?" (Die PDB zeigt nicht mit einem Papier verbunden. Der PDB -Eintrag erklärt jedoch, dass dies ein weiteres Protein ist, das weder ein Cytochrom C noch zu Desulfovibrio vulgaris gehört Das ist schlecht, sehr schlecht wie bei allen Halluzinationen. Aber ermutigend, wenn ich Chatgpt-4o auf bitte, eine Online-Suche durchzuführen (beachten Sie, dass die PDB völlig geöffnet ist), destilliert sie die richtigen Informationen:
Die PDB-ID
1ci0bezieht sich auf die Kristallstruktur vonpyridoxin-5'-phosphat (pnp) oxidase aus saccharomyces cerevissiae (Breer's Hefe). Dieses Enzym wird als Oxidoreduktase eingestuft und spielt eine Schlüsselrolle im Stoffwechselweg von Vitamin B6. Es erleichtert die Umwandlung von Pyridoxin-5'-phosphat in Pyridoxal-5'-phosphat, einer aktiven Form von Vitamin B6. Die Struktur wurde unter Verwendung der Röntgenbeugung bei einer Auflösung von 2,7 Å bestimmt, wobei die biologische Montage ein Homo-Dimer war. Das Experiment wurde unter Verwendung von Kristallen durchgeführt, die aus einem rekombinanten Protein stammen, das in Escherichia coli
exprimiert wurde. Die Struktur umfasst zwei Proteinketten und ist an das Cofaktorflavin -Mononukleotid (FMN) gebunden, was für ihre enzymatische Aktivität von entscheidender Bedeutung ist.Dieser Eintrag wurde 1999 von Shi et al. und wird häufig verwendet, um Vitamin B6 Biosynthesemechanismen und potenzielle Anwendungen in Biotechnologie oder Medizin zu untersuchen. 【7 】【 8 】【 10】.
… was im Wesentlichen perfekt alle Informationen für diesen Eintrag bei der PDB widerspiegelt und tatsächlich schöner ist als es, weil es Akronym- und Kurzform-Namen wie "PNP" darstellt und alle Daten reinigt-einfach mit dem PDB vergleichen Eintrag:
![]()
Also? Nützlich oder nicht?
Meine Schlussfolgerung mit diesem neuesten Experiment ist, dass trotz der vollkommen anfälligsten Halluzination das Überprüfen der Überprüfung durch Chatgpt die Online-Einträge wahrscheinlich vollständig überwinden könnte.
Wie bei all diesen KI-Tools brauchen wir Vorsicht, aber der Ansatz von Such-Back ist wahrscheinlich zuverlässig. Bevor Sie jedoch sehr spezifische Schlussfolgerungen ziehen, überprüft Sie die Ausgabe des LLM selbst besser.
Schlussfolgerung und Aussichten
Durch diese Erkundung wollte ich veranschaulichen, wie experimentelle Strukturbiologie, molekulare Modellierung mit Tools wie Alphafold 3 und LLMs wie GPT-4O, konvergieren können, damit die Forscher molekulare Strukturen auf neuartige Weise suchen und analysieren können, dank OpenAI, einschließlich Inhalte über die PDB in seinem Trainingsdatensatz. Aus den Halluzinationsproblemen, die wir im letzten Abschnitt gesehen haben, schlage ich vor, dass die Aufnahme von Informationen für PDB -Einträge, die ausdrücklich nach LLM -Training ausdrücklich auf ein neues Niveau führen und besser und genauer arbeiten könnten. Doch mit dem oben getesteten Ansatz des Such-Back-Ansatzes kann man sich wahrscheinlich sicher fühlen, dass der LLM nicht in falschen Informationen schleicht.
Ich denke, durch die Nutzung dieser kombinierten Ressourcen können Wissenschaftler viel schneller und besser mit dem Bereich der im Zusammenhang mit einem bestimmten Thema verfügbaren Strukturen kennenlernen. Wahrscheinlich am nützlichsten, wenn Sie in eine neue spezifische Subdomäne der Biologie umgehen.
Ich denke auch, dass diese Ressourcen die Grundlagen für eine weitere Untersuchung haben, wie LLMs und Alphafold 3 (oder ähnliche Modelle, die jetzt auftauchen), so gekoppelt werden könnten, dass sie nicht nur navigieren, sondern auch Biomoleküle und ihre Komplexe auf neue Weise verstehen. Vielleicht könnte sogar molekulare Grafik- und Modellierungswerkzeuge, die von der Kenntnis des PDB durch LLMs profitieren, erstellt werden, die es ermöglichen, eine komplexe Manipulation und Analyse von Biomolekularen Strukturen durch natürliche Befehle durchzuführen.
www.lucianoabriata.com Ich schreibe über alles, was in meinem breiten Interessenbereich liegt: Nature, Wissenschaft, Technologie, Programmierung usw. Abonnieren Sie meine neuen Geschichten per E -Mail. Um sich über kleine Jobs zu wenden, finden Sie hier meine Dienstleistungsseite. Sie können mich hier kontaktieren. Sie können mich hier geben.
Das obige ist der detaillierte Inhalt vonEpic “ Crossover ” Zwischen Alphafold 3 und GPT-4Os Kenntnis der Proteindatenbankeinträge. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!