Große Sprachmodelle (LLMs) wie GPT von OpenAI und Llama von Meta AI werden zunehmend für ihr Potenzial im Bereich der Chemoinformatik anerkannt, insbesondere für das Verständnis des Aspekts vereinfachter molekularer Eingabezeilensysteme (SMILES). Diese LLMs sind auch in der Lage, SMILES-Strings in Vektordarstellungen zu dekodieren.
Forscher an der University of Windsor in Kanada verglichen die Leistung vorab trainierter Modelle für GPT und Llama mit SMILES zur Einbettung von SMILES-Strings in nachgelagerte Aufgaben und konzentrierten sich dabei auf zwei Schlüsselanwendungen: Vorhersage molekularer Eigenschaften und Vorhersage von Arzneimittel-Wirkstoff-Interaktionen.
Die Studie trug den Titel „Können große Sprachmodelle Moleküle verstehen?“ und wurde am 25. Juni 2024 in „BMC Bioinformatics“ veröffentlicht.
1. Anwendung der molekularen Einbettung in der ArzneimittelforschungDie molekulare Einbettung ist eine entscheidende Aufgabe in der Arzneimittelforschung und wird häufig bei der Vorhersage molekularer Eigenschaften, der Vorhersage von Arzneimittel-Ziel-Interaktionen (DTI) und der Arzneimittel-Wirkstoff-Interaktionsfunktion (DDI) eingesetzt ) Vorhersage und andere damit verbundene Aufgaben.
2. Molekulare Einbettungstechnologie
Die molekulare Einbettungstechnologie kann Merkmale aus molekularen Diagrammen lernen, die molekulare Strukturverbindungsinformationen oder Linienanmerkungen ihrer Strukturen kodieren, wie beispielsweise die beliebte SMILES-Darstellung.
3. Molekulare Einbettungen in SMILES-Strings
Molekulare Einbettungen über SMILES-Strings haben sich parallel zu Fortschritten in der Sprachmodellierung entwickelt, von statischen Worteinbettungen bis hin zu kontextualisierten vorab trainierten Modellen. Diese Einbettungstechniken zielen darauf ab, relevante strukturelle und chemische Informationen in einer kompakten numerischen Darstellung zu erfassen.
Illustration: medizinisch-chemische Darstellung. (Quelle: Paper)Die Grundannahme ist, dass sich Moleküle mit ähnlichen Strukturen auf ähnliche Weise verhalten. Dies ermöglicht es Algorithmen des maschinellen Lernens, molekulare Strukturen für Aufgaben zur Vorhersage von Eigenschaften und zur Arzneimittelentwicklung zu verarbeiten und zu analysieren.
Angesichts der Durchbrüche im LLM stellt sich die Frage, ob LLM Moleküle verstehen und auf der Grundlage molekularer Daten Rückschlüsse ziehen kann.
Genauer gesagt: Kann LLM qualitativ hochwertige semantische Darstellungen produzieren?
Shaghayegh Sadeghi, Alioune Ngom Jianguo Lu und andere von der University of Windsor untersuchten weiter die Fähigkeit dieser Modelle, SMILES effektiv einzubetten. Derzeit ist diese Funktion noch nicht ausreichend erforscht, was möglicherweise zum Teil auf die Kosten der API-Aufrufe zurückzuführen ist.
Forscher fanden heraus, dass mit Llama generierte SMILES-Einbettungen sowohl bei molekularen Eigenschaften als auch bei DDI-Vorhersageaufgaben eine bessere Leistung erbrachten als mit GPT generierte SMILES-Einbettungen.
Abbildung: Ergebnisse von Klassifizierungs- und Regressionsaufgaben. (Quelle: Papier)Das obige ist der detaillierte Inhalt vonDie Einbettung von Lama-Molekülen ist besser als GPT. Kann LLM Moleküle verstehen? Meta besiegte OpenAI in dieser Runde. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!