„Enzyklopädie' der Entdeckung von KI-basierten Wirkstoffen für kleine Moleküle, rezensiert von Forschern aus Cornell, Cambridge, der EPFL und anderen, veröffentlicht in der Unterzeitschrift „Nature'.-KI-php.cn

„Enzyklopädie der Entdeckung von KI-basierten Wirkstoffen für kleine Moleküle, rezensiert von Forschern aus Cornell, Cambridge, der EPFL und anderen, veröffentlicht in der Unterzeitschrift „Nature.

Autor |. Cornell University Du Yuanqi

ScienceAI

Da KI für die Wissenschaft immer mehr Aufmerksamkeit erhält, machen sich die Menschen mehr Gedanken darüber, wie KI eine Reihe wissenschaftlicher Probleme lösen und erfolgreich als Referenz in anderen Bereichen eingesetzt werden kann Länder ähnliche Bereiche.

KI und die Entdeckung kleiner Moleküle sind eines der repräsentativsten und am frühesten erforschten Gebiete. Die molekulare Entdeckung ist ein sehr schwieriges kombinatorisches Optimierungsproblem (aufgrund der diskreten Natur der Molekülstruktur) und der Suchraum ist sehr groß. Gleichzeitig ist es normalerweise sehr schwierig, die Eigenschaften der gesuchten Moleküle zu überprüfen erfordert aufwendige Experimente, zumindest Simulationsrechnungen und quantenchemische Methoden, um Rückmeldungen zu liefern.

Mit der rasanten Entwicklung des maschinellen Lernens und dank früher Erforschung (einschließlich der Konstruktion einfacher und verwendbarer Optimierungsziele und Effektmessmethoden) wurde eine große Anzahl von Algorithmen entwickelt, darunter kombinatorische Optimierungs-, Such- und Stichprobenalgorithmen (genetische Algorithmen). , Monte-Carlo-Baumsuche, Verstärkungslernen, generatives Flussmodell/GFlowNet, Markov-Ketten-Monte-Carlo usw.) und kontinuierliche Optimierungsalgorithmen, Bayes'sche Optimierung, gradientenbasierte Optimierung usw. Gleichzeitig haben die bestehenden relativ vollständigen Algorithmen-Messbenchmarks und relativ objektiven und fairen Vergleichsmethoden auch einen weiten Raum für die Entwicklung von Algorithmen für maschinelles Lernen eröffnet.

Kürzlich haben Forscher der Cornell University, der University of Cambridge und der Ecole Polytechnique Fédérale de Lausanne (EPFL) einen Übersichtsartikel mit dem Titel „Machine Learning-Aided Generative Molecular Design“ in „Nature Machine Intelligence“ veröffentlicht.

Link zum Papier: https://www.nature.com/articles/s42256-024-00843-5

Diese Rezension untersucht die Anwendung von maschinellem Lernen im generativen molekularen Design. Die Entdeckung und Entwicklung von Arzneimitteln erfordert die Optimierung von Molekülen, um bestimmte physikalisch-chemische Eigenschaften und biologische Aktivitäten zu erfüllen. Allerdings sind herkömmliche Methoden aufgrund des riesigen Suchraums und diskontinuierlicher Optimierungsfunktionen teuer und fehleranfällig. Maschinelles Lernen beschleunigt den Arzneimittelentwicklungsprozess im Frühstadium durch die Kombination von Molekülgenerierungs- und Screening-Schritten.

Illustration: Generativer ML-unterstützter molekularer Designprozess.

Generative molekulare Designaufgaben

Generatives molekulares Design kann in zwei Hauptparadigmen unterteilt werden: verteiltes Lernen und zielorientierte Generierung, wobei zielorientierte Generierung weiter in bedingte Generierung und molekulare Optimierung unterteilt werden kann. Die Eignung jeder Methode hängt von der konkreten Aufgabenstellung und den beteiligten Daten ab.

Verteilungslernen (Verteilungslernen)

Verteilungslernen zielt darauf ab, die Verteilung von Daten zu beschreiben, indem die Wahrscheinlichkeitsverteilung von Molekülen in einem bestimmten Datensatz modelliert wird, wodurch neue Moleküle aus der erlernten Verteilung entnommen werden.

Bedingte Generierung (bedingte Generierung)

Eigenschaftsbedingte Generierung: Erzeugen Sie eine Struktur mit bestimmten Attributen, bei denen es sich um eine Textbeschreibung oder einen Wert eines bestimmten Attributs handeln kann.
Molekulare (Unter-)Struktur-bedingte Erzeugung(Molekulare (Unter-)Struktur-bedingte Erzeugung): Erzeugen Sie Moleküle mit spezifischen strukturellen Einschränkungen, wie z. B. Entwurf von Teilstrukturen, Gerüst-Hopping, Linker-Design, Neugestaltung der gesamten Struktur (Pilotoptimierung). oder die gesamte bedingte Generation von Molekülen (Konformationsgeneration).
Target-conditioned generation (target-conditioned generation): Zielt darauf ab, Moleküle mit hoher Bindungsaffinität für spezifische krankheitsbezogene biomolekulare Ziele zu erzeugen. Im Gegensatz zur Attributbedingungsgenerierung nutzt die Zielbedingungsgenerierung den expliziten Zugriff auf die Zielstruktur, um die Affinität des Ligandenmoleküls zum Ziel durch die Integration direkter Ziel-Ligand-Wechselwirkungen zu verbessern.
Phänotyp-konditionierte Generierung (Phänotyp-konditionierte Generierung): Beinhaltet das Erlernen phänotypischer Fingerabdrücke aus zellbasierter Mikroskopie oder anderen Bioassay-Auslesungen (z. B. Transkriptomdaten), um konditionierte Signale bereitzustellen, die die Generierung in Richtung des gewünschten biologischen Ergebniszählers führen.

Molekulare Optimierung spielt eine Schlüsselrolle in der Arzneimittelentwicklung, indem sie die Eigenschaften von Arzneimittelkandidaten verfeinert, um deren Sicherheit, Wirksamkeit und pharmakokinetische Eigenschaften zu verbessern. Umfasst kleine Modifikationen an molekularen Kandidatenstrukturen, um Arzneimitteleigenschaften wie Löslichkeit, Bioverfügbarkeit und Zielaffinität zu optimieren und dadurch das therapeutische Potenzial zu verbessern und den Erfolg bei klinischen Endpunkten zu steigern.

Illustrationen: Illustrationen zu Generierungsaufgaben, Generierungsstrategien und molekularer Charakterisierung.

Molekularer Erzeugungsprozess

Die molekulare Erzeugung ist ein komplexer Prozess, der viele verschiedene Kombinationseinheiten umfasst. Wir listen die repräsentativen Arbeiten in der folgenden Abbildung auf und stellen die repräsentativen Einheiten jedes Teils vor.

Molekulare Darstellung

Bei der Entwicklung molekular generierter neuronaler Architekturen ist es zunächst notwendig, maschinenlesbare Eingabe- und Ausgabedarstellungen der Molekülstruktur zu ermitteln. Die Eingabedarstellung hilft dabei, geeignete induktive Vorspannungen in das Modell einzuspeisen, während die Ausgabedarstellung den optimierten Suchraum für das Molekül bestimmt. Der Darstellungstyp bestimmt die Anwendbarkeit der Generierungsmethode. Diskrete Suchalgorithmen können beispielsweise nur auf kombinatorische Darstellungen wie Diagramme und Zeichenfolgen angewendet werden.

Während verschiedene Eingabedarstellungen untersucht wurden, sind die Kompromisse zwischen Darstellungstypen und den neuronalen Architekturen, die sie kodieren, noch nicht klar. Darstellungstransformationen zwischen Molekülen sind nicht unbedingt bijektiv; Dichtekarten und Fingerabdrücke können beispielsweise Moleküle nicht eindeutig identifizieren, und es sind weitere Techniken erforderlich, um dieses nicht triviale Abbildungsproblem zu lösen. Zu den gängigen molekularen Darstellungen gehören Strings, zweidimensionale topologische Graphen und dreidimensionale geometrische Graphen.
- String-basierte molekulare Strukturen: normalerweise als Strings kodiert, wie z. B. Simplified Molecular Input Line Entry System (SMILES) oder Self-Referential Embedded Strings (SELFIES). SMILES stellt das Molekül mithilfe von Syntaxregeln dar, die Zeichenfolge ist jedoch möglicherweise ungültig. SELFIES bestimmt die Gültigkeit des Moleküls durch Ändern dieser Regeln. Molekulare Strings werden typischerweise über rekurrente Netzwerke und Transformer-Modelle in Sequenzdaten kodiert.
- Atome und Bindungen basierend auf topologischen und geometrischen Graphen: werden in topologischen Graphen normalerweise als Knoten und Kanten dargestellt. Graphische neuronale Netze (GNNs) werden häufig zur Modellierung graphstrukturierter molekularer Daten verwendet, wobei Knoten- und Kantenmerkmale basierend auf benachbarten Knoten aktualisiert werden. Geometrische GNNs werden oft verwendet, um anwendungsrelevante Symmetrien im 3D-Raum zu erfassen, wie etwa Translations- und Rotationsinvarianz oder Äquivarianz, wenn 3D-Informationen verfügbar und relevant sind.
Die Darstellungsgranularität ist ein weiterer Gesichtspunkt beim generativen Modelldesign. Typischerweise nutzen Methoden bei der Erzeugung Atome oder Molekülfragmente als Grundbausteine. Die fragmentbasierte Darstellung verfeinert molekulare Strukturen in größere Einheiten, die Gruppen von Atomen enthalten und hierarchische Informationen wie die Identifizierung funktioneller Gruppen tragen, wodurch sie mit traditionellen fragmentbasierten oder Pharmakophor-Arzneimitteldesignansätzen in Einklang gebracht werden.

Generative Methoden

Tiefe generative Modelle sind eine Klasse von Methoden, die die Wahrscheinlichkeitsverteilung von Daten und Stichproben aus einer Lernverteilung (auch Verteilungslernen genannt) schätzen. Dazu gehören Variations-Autoencoder, generative kontradiktorische Netzwerke, normalisierende Flüsse, autoregressive Modelle und Diffusionsmodelle. Jede dieser Generierungsmethoden hat ihre Anwendungsfälle, Vor- und Nachteile, und die Wahl hängt von der erforderlichen Aufgabe und den Dateneigenschaften ab.

Generierungsstrategie

Generierungsstrategie bezieht sich auf die Art und Weise, wie das Modell die Molekülstruktur ausgibt, die im Allgemeinen in einmalige Generierung, sequentielle Generierung oder iterative Verbesserung unterteilt werden kann.

One-Shot-Generierung: One-Shot-Generierung generiert die vollständige Molekülstruktur in einem einzigen Vorwärtsdurchlauf des Modells. Bei diesem Ansatz ist es oft schwierig, realistische und vernünftige Molekülstrukturen mit hoher Genauigkeit zu erzeugen. Darüber hinaus kann die One-Shot-Generierung häufig explizite Einschränkungen, wie z. B. Valenzbeschränkungen, nicht erfüllen, die für die Gewährleistung der Genauigkeit und Gültigkeit der generierten Struktur von entscheidender Bedeutung sind.

Sequentielle Generierung: Sequentielle Generierung baut eine Molekülstruktur durch eine Reihe von Schritten auf, normalerweise durch Atome oder Fragmente. Valenzbeschränkungen können leicht in die sequentielle Generierung eingefügt werden, wodurch die Qualität der erzeugten Moleküle verbessert wird. Die Haupteinschränkung der sequentiellen Generierung besteht jedoch darin, dass die Reihenfolge der generierten Trajektorien während des Trainings definiert werden muss und die Schlussfolgerung langsamer ist.

Iterative Verbesserung: Die iterative Verbesserung passt die Vorhersage an, indem eine Reihe von Aktualisierungen vorhergesagt werden, wodurch die Schwierigkeiten bei One-Shot-Generierungsmethoden umgangen werden. Beispielsweise hat das zyklische Strukturmodul in AlphaFold2 das Grundgerüst erfolgreich verfeinert, ein Ansatz, der verwandte Strategien zur Molekülgenerierung inspirierte. Die Diffusionsmodellierung ist eine gängige Technik, die durch eine Reihe von Rauschreduzierungsschritten neue Daten generiert. Derzeit werden Diffusionsmodelle auf eine Vielzahl von Problemen bei der Molekülgenerierung angewendet, darunter Konformationsgenerierung, strukturbasiertes Arzneimitteldesign und Linkerdesign.

Optimierungsstrategie

Kombinationsoptimierung: Für die kombinatorische Kodierung von Molekülen (Bilder oder Strings) kann Technologie im Bereich der kombinatorischen Optimierung direkt angewendet werden.

Kontinuierliche Optimierung: Moleküle können in kontinuierlichen Domänen dargestellt oder codiert werden, beispielsweise in Punktwolken und geometrischen Karten im euklidischen Raum oder in tiefen generativen Modellen, die diskrete Daten im kontinuierlichen latenten Raum codieren.

Bewertung generativer Modelle für maschinelles Lernen

Die Bewertung generativer Modelle erfordert eine rechnerische Bewertung und experimentelle Verifizierung. Zu den Standardmetriken gehören Wirksamkeit, Einzigartigkeit, Neuheit usw. Bei der Bewertung eines Modells sollten mehrere Metriken berücksichtigt werden, um die Build-Leistung vollständig zu beurteilen.

Experimentelle Verifizierung

Die erzeugten Moleküle müssen explizit durch Nassexperimente verifiziert werden, im Gegensatz zu bestehender Forschung, die sich hauptsächlich auf rechnerische Beiträge konzentriert. Während generative Modelle nicht ohne Schwächen sind, ist die Diskrepanz zwischen Vorhersagen und Experimenten auch auf das Fachwissen, die Kosten und die langen Testzyklen zurückzuführen, die für die Durchführung solcher Validierungen erforderlich sind.

Generieren von Modellgesetzen

Die meisten Studien, die über experimentelle Validierung berichten, verwenden RNN und/oder VAE mit SMILES als Betriebsobjekt. Wir fassen vier Hauptbeobachtungen zusammen:
1. SMILES erfasst zwar begrenzte 3D-Informationen, dient aber als effiziente Darstellung, die für verteiltes Lernen und die Feinabstimmung kleiner Datensätze geeignet ist.
2. Viele experimentell validierte Forschungsziele sind Kinasen, die häufige Ziele in beliebten Open-Source-Datensätzen wie ChEMBL sind.
3. Die überwiegende Mehrheit der zielgerichteten Methoden nutzt Reinforcement Learning (allein oder als Komponente) als Optimierungsalgorithmen, einschließlich ligandenbasierter und strukturbasierter Arzneimittelentwicklung.
4. AlphaFold-vorhergesagte Strukturen können erfolgreich für das strukturgenerierte Arzneimitteldesign verwendet werden.
Zukünftige Richtungen

Obwohl maschinelle Lernalgorithmen Hoffnung in die Entdeckung von Arzneimitteln mit kleinen Molekülen gebracht haben, gibt es noch weitere Herausforderungen und Chancen, denen man sich stellen muss.

Herausforderung
1. Erzeugung außerhalb der Verteilung: Bekannte Chemikalien nehmen nur einen kleinen Teil des chemischen Raums ein. Obwohl tiefe generative Modelle Moleküle außerhalb der Trainingsverteilung vorschlagen können, muss sichergestellt werden, dass sie sinnvoll sind.
2. Unrealistische Problemformulierung: Eine präzise Problemformulierung ist entscheidend für die Entwicklung von Modellen, die auf die Arzneimittelforschung in der Praxis anwendbar sind. Zu den grundlegenden Aspekten, die oft übersehen werden, gehören die Konformationsdynamik, die Rolle von Wasser und entropische Beiträge, während Annahmen wie der unbegrenzte Zugang zu Orakelaufrufen oft fälschlicherweise als selbstverständlich angesehen werden. Dies umfasst die Frage der Probeneffizienz, und neuere Forschungen haben Fortschritte in Richtung einer effizienten, zielgerichteten Generierung unter begrenzten Oracle-Budgets gemacht.
3. Low-Fidelity-Orakel: Effizientes Score-Design für Dimensionen, die für die Arzneimittelentdeckung relevant sind, bleibt schwierig und wird zu einem Engpass bei der Bereitstellung generativer Modelle in industriellen Umgebungen. Beispielsweise sind Bindungsaffinitätsvorhersagen mit hohem Durchsatz in datengesteuerten und physikbasierten Arbeitsabläufen häufig ungenau. Es gibt zwar alternative hochpräzise Orakel, deren Rechenanforderungen schränken jedoch die Skalierbarkeit ein. Darüber hinaus ist die Unzugänglichkeit qualitativ hochwertiger annotierter Daten auch zu einem Hindernis für die Entwicklung von KI-Orakeln mit hoher Genauigkeit und Verwaltbarkeit geworden.
4. Fehlen einheitlicher Bewertungsprotokolle: Die Bewertungsprotokolle zur Bewertung der Qualität von Arzneimittelkandidaten sind eng mit unseren Kriterien zur Definition eines guten Arzneimittels verknüpft. Die von der ML-Community häufig verwendeten einfach zu berechnenden physikalisch-chemischen Deskriptoren sind fragwürdig und spiegeln die Leistung sicherlich nicht vollständig wider. Auch strenge Vergleiche zwischen generativem molekularem Design und virtuellem Screening sind seltener.
5. Mangel an groß angelegter Forschung und Benchmarking: Viele ML-Methoden wurden entwickelt, jedoch ohne faire Benchmarking-Ergebnisse für verschiedene Modelltypen bei vielen kritischen Aufgaben. Beispielsweise wurde nur ein Bruchteil der verfügbaren Daten für das Training verwendet, was das Verständnis der Skalierbarkeit des Modells einschränkte. Aktuelle Benchmarks sind ein wichtiger Beitrag zur Standardisierung rechnerischer Bewertungsprotokolle.
6. Mangelnde Interpretierbarkeit: Interpretierbarkeit ist ein wichtiger, aber wenig erforschter Bereich in molekularen generativen Modellen. Erkenntnisse darüber, wie ein Generierungs- oder Optimierungsprozess Moleküle aufbaut, können beispielsweise zu chemischen Regeln führen, die für medizinische Chemiker interpretierbar sind. Dies ist besonders wichtig im Bereich der kleinen Moleküle, da generative Modelle häufig verwendet werden, um Ideen an medizinische Chemiker weiterzugeben, und Synthesebarrieren die Möglichkeit ausschließen, alle generativen Designs zu testen.
Gelegenheit
1. Anwendungen über das Design kleiner Moleküle hinaus: Die hier besprochenen Methoden können breitere Anwendungen beim Design anderer komplexer Strukturmaterialien wie Polysacchariden, Proteinen (insbesondere Antikörpern), Nukleinsäuren, Kristallstrukturen und Polymeren haben.
2. Große Sprachmodelle zeigen das Potenzial, das molekulare Design durch textgesteuerte Entdeckung und Entscheidungsfindung als Agenten zu revolutionieren, ermöglicht durch die riesigen Mengen verfügbarer Trainingsdaten, einschließlich der wissenschaftlichen Literatur. Darüber hinaus bieten Modelle, die auf molekulare Strukturen zugeschnitten oder fein abgestimmt sind, Forschern zusätzliche Möglichkeiten, etablierte Fortschritte in der Verarbeitung natürlicher Sprache zu nutzen.
3. Spätere Phasen der Arzneimittelentwicklung: Molekulares Design/Optimierung nimmt die frühen Phasen der Arzneimittelentwicklung ein. Späte Misserfolge aufgrund eingeschränkter Wirksamkeit, schlechter ADME/T-Eigenschaften (Absorption, Verteilung, Metabolismus, Ausscheidung und Toxizität) und Sicherheitsbedenken sind jedoch Schwachstellen in der Arzneimittelentwicklungspipeline. Obwohl die Integration klinischer Daten in Design-Pipelines begrenzt ist, ist sie ein vielversprechender Weg, um die Erfolgsraten nachgelagerter Prozesse zu verbessern.
4. Fokussiertes Modell Zweck: Arzneimittelforschungspipelines sind das Ergebnis jahrelanger Erfahrung und harter Erkenntnisse von Pharmaunternehmen. ML-Forscher sollten über das Entwerfen reiner Ab-initio-Modelle hinausgehen (insbesondere, wenn es an umfassenden Darstellungsmöglichkeiten mangelt) und stattdessen Modelle entwerfen, die sich auf die Verbesserung bestimmter Schritte über einen mehrjährigen Prozess konzentrieren und dabei den Einschränkungen der realen Welt entsprechen.
5. Automatisierte Labore: Der zunehmende Bedarf an Hochdurchsatzexperimenten, um Feedback für Moleküle zu liefern, die für ML entwickelt wurden, lenkt immer mehr Aufmerksamkeit auf automatisierte Labore, um den Entwurfs-, Herstellungs-, Test- und Analysezyklus zu beschleunigen.
Autor: Du Yuanqi, Doktorand im zweiten Jahr am Fachbereich Informatik der Cornell University. Seine Hauptforschungsinteressen umfassen geometrisches Deep Learning, Wahrscheinlichkeitsmodelle, Stichprobenziehung, Suche, Optimierungsprobleme, Interpretierbarkeit und Anwendungen auf diesem Gebiet Spezifische Informationen finden Sie unter: https://yuanqidu.github.io/.

Das obige ist der detaillierte Inhalt von„Enzyklopädie' der Entdeckung von KI-basierten Wirkstoffen für kleine Moleküle, rezensiert von Forschern aus Cornell, Cambridge, der EPFL und anderen, veröffentlicht in der Unterzeitschrift „Nature'.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!