Autor |. Cornell University Du Yuanqi
ScienceAI
Da KI für die Wissenschaft immer mehr Aufmerksamkeit erhält, machen sich die Menschen mehr Gedanken darüber, wie KI eine Reihe wissenschaftlicher Probleme lösen und erfolgreich als Referenz in anderen Bereichen eingesetzt werden kann Länder ähnliche Bereiche.
KI und die Entdeckung kleiner Moleküle sind eines der repräsentativsten und am frühesten erforschten Gebiete. Die molekulare Entdeckung ist ein sehr schwieriges kombinatorisches Optimierungsproblem (aufgrund der diskreten Natur der Molekülstruktur) und der Suchraum ist sehr groß. Gleichzeitig ist es normalerweise sehr schwierig, die Eigenschaften der gesuchten Moleküle zu überprüfen erfordert aufwendige Experimente, zumindest Simulationsrechnungen und quantenchemische Methoden, um Rückmeldungen zu liefern.
Mit der rasanten Entwicklung des maschinellen Lernens und dank früher Erforschung (einschließlich der Konstruktion einfacher und verwendbarer Optimierungsziele und Effektmessmethoden) wurde eine große Anzahl von Algorithmen entwickelt, darunter kombinatorische Optimierungs-, Such- und Stichprobenalgorithmen (genetische Algorithmen). , Monte-Carlo-Baumsuche, Verstärkungslernen, generatives Flussmodell/GFlowNet, Markov-Ketten-Monte-Carlo usw.) und kontinuierliche Optimierungsalgorithmen, Bayes'sche Optimierung, gradientenbasierte Optimierung usw. Gleichzeitig haben die bestehenden relativ vollständigen Algorithmen-Messbenchmarks und relativ objektiven und fairen Vergleichsmethoden auch einen weiten Raum für die Entwicklung von Algorithmen für maschinelles Lernen eröffnet.
Kürzlich haben Forscher der Cornell University, der University of Cambridge und der Ecole Polytechnique Fédérale de Lausanne (EPFL) einen Übersichtsartikel mit dem Titel „Machine Learning-Aided Generative Molecular Design“ in „Nature Machine Intelligence“ veröffentlicht.
Link zum Papier: https://www.nature.com/articles/s42256-024-00843-5
Diese Rezension untersucht die Anwendung von maschinellem Lernen im generativen molekularen Design. Die Entdeckung und Entwicklung von Arzneimitteln erfordert die Optimierung von Molekülen, um bestimmte physikalisch-chemische Eigenschaften und biologische Aktivitäten zu erfüllen. Allerdings sind herkömmliche Methoden aufgrund des riesigen Suchraums und diskontinuierlicher Optimierungsfunktionen teuer und fehleranfällig. Maschinelles Lernen beschleunigt den Arzneimittelentwicklungsprozess im Frühstadium durch die Kombination von Molekülgenerierungs- und Screening-Schritten.
Illustration: Generativer ML-unterstützter molekularer Designprozess.
Generative molekulare Designaufgaben
Generatives molekulares Design kann in zwei Hauptparadigmen unterteilt werden: verteiltes Lernen und zielorientierte Generierung, wobei zielorientierte Generierung weiter in bedingte Generierung und molekulare Optimierung unterteilt werden kann. Die Eignung jeder Methode hängt von der konkreten Aufgabenstellung und den beteiligten Daten ab.
Verteilungslernen (Verteilungslernen)
Bedingte Generierung (bedingte Generierung)
Molekulare Optimierung spielt eine Schlüsselrolle in der Arzneimittelentwicklung, indem sie die Eigenschaften von Arzneimittelkandidaten verfeinert, um deren Sicherheit, Wirksamkeit und pharmakokinetische Eigenschaften zu verbessern. Umfasst kleine Modifikationen an molekularen Kandidatenstrukturen, um Arzneimitteleigenschaften wie Löslichkeit, Bioverfügbarkeit und Zielaffinität zu optimieren und dadurch das therapeutische Potenzial zu verbessern und den Erfolg bei klinischen Endpunkten zu steigern.
Illustrationen: Illustrationen zu Generierungsaufgaben, Generierungsstrategien und molekularer Charakterisierung.
Molekularer Erzeugungsprozess
Die molekulare Erzeugung ist ein komplexer Prozess, der viele verschiedene Kombinationseinheiten umfasst. Wir listen die repräsentativen Arbeiten in der folgenden Abbildung auf und stellen die repräsentativen Einheiten jedes Teils vor.
Molekulare Darstellung
Bei der Entwicklung molekular generierter neuronaler Architekturen ist es zunächst notwendig, maschinenlesbare Eingabe- und Ausgabedarstellungen der Molekülstruktur zu ermitteln. Die Eingabedarstellung hilft dabei, geeignete induktive Vorspannungen in das Modell einzuspeisen, während die Ausgabedarstellung den optimierten Suchraum für das Molekül bestimmt. Der Darstellungstyp bestimmt die Anwendbarkeit der Generierungsmethode. Diskrete Suchalgorithmen können beispielsweise nur auf kombinatorische Darstellungen wie Diagramme und Zeichenfolgen angewendet werden.
Während verschiedene Eingabedarstellungen untersucht wurden, sind die Kompromisse zwischen Darstellungstypen und den neuronalen Architekturen, die sie kodieren, noch nicht klar. Darstellungstransformationen zwischen Molekülen sind nicht unbedingt bijektiv; Dichtekarten und Fingerabdrücke können beispielsweise Moleküle nicht eindeutig identifizieren, und es sind weitere Techniken erforderlich, um dieses nicht triviale Abbildungsproblem zu lösen. Zu den gängigen molekularen Darstellungen gehören Strings, zweidimensionale topologische Graphen und dreidimensionale geometrische Graphen.
Die Darstellungsgranularität ist ein weiterer Gesichtspunkt beim generativen Modelldesign. Typischerweise nutzen Methoden bei der Erzeugung Atome oder Molekülfragmente als Grundbausteine. Die fragmentbasierte Darstellung verfeinert molekulare Strukturen in größere Einheiten, die Gruppen von Atomen enthalten und hierarchische Informationen wie die Identifizierung funktioneller Gruppen tragen, wodurch sie mit traditionellen fragmentbasierten oder Pharmakophor-Arzneimitteldesignansätzen in Einklang gebracht werden.
Generative Methoden
Tiefe generative Modelle sind eine Klasse von Methoden, die die Wahrscheinlichkeitsverteilung von Daten und Stichproben aus einer Lernverteilung (auch Verteilungslernen genannt) schätzen. Dazu gehören Variations-Autoencoder, generative kontradiktorische Netzwerke, normalisierende Flüsse, autoregressive Modelle und Diffusionsmodelle. Jede dieser Generierungsmethoden hat ihre Anwendungsfälle, Vor- und Nachteile, und die Wahl hängt von der erforderlichen Aufgabe und den Dateneigenschaften ab.
Generierungsstrategie
Generierungsstrategie bezieht sich auf die Art und Weise, wie das Modell die Molekülstruktur ausgibt, die im Allgemeinen in einmalige Generierung, sequentielle Generierung oder iterative Verbesserung unterteilt werden kann.
One-Shot-Generierung: One-Shot-Generierung generiert die vollständige Molekülstruktur in einem einzigen Vorwärtsdurchlauf des Modells. Bei diesem Ansatz ist es oft schwierig, realistische und vernünftige Molekülstrukturen mit hoher Genauigkeit zu erzeugen. Darüber hinaus kann die One-Shot-Generierung häufig explizite Einschränkungen, wie z. B. Valenzbeschränkungen, nicht erfüllen, die für die Gewährleistung der Genauigkeit und Gültigkeit der generierten Struktur von entscheidender Bedeutung sind.
Sequentielle Generierung: Sequentielle Generierung baut eine Molekülstruktur durch eine Reihe von Schritten auf, normalerweise durch Atome oder Fragmente. Valenzbeschränkungen können leicht in die sequentielle Generierung eingefügt werden, wodurch die Qualität der erzeugten Moleküle verbessert wird. Die Haupteinschränkung der sequentiellen Generierung besteht jedoch darin, dass die Reihenfolge der generierten Trajektorien während des Trainings definiert werden muss und die Schlussfolgerung langsamer ist.
Iterative Verbesserung: Die iterative Verbesserung passt die Vorhersage an, indem eine Reihe von Aktualisierungen vorhergesagt werden, wodurch die Schwierigkeiten bei One-Shot-Generierungsmethoden umgangen werden. Beispielsweise hat das zyklische Strukturmodul in AlphaFold2 das Grundgerüst erfolgreich verfeinert, ein Ansatz, der verwandte Strategien zur Molekülgenerierung inspirierte. Die Diffusionsmodellierung ist eine gängige Technik, die durch eine Reihe von Rauschreduzierungsschritten neue Daten generiert. Derzeit werden Diffusionsmodelle auf eine Vielzahl von Problemen bei der Molekülgenerierung angewendet, darunter Konformationsgenerierung, strukturbasiertes Arzneimitteldesign und Linkerdesign.
Optimierungsstrategie
Kombinationsoptimierung: Für die kombinatorische Kodierung von Molekülen (Bilder oder Strings) kann Technologie im Bereich der kombinatorischen Optimierung direkt angewendet werden.
Kontinuierliche Optimierung: Moleküle können in kontinuierlichen Domänen dargestellt oder codiert werden, beispielsweise in Punktwolken und geometrischen Karten im euklidischen Raum oder in tiefen generativen Modellen, die diskrete Daten im kontinuierlichen latenten Raum codieren.
Bewertung generativer Modelle für maschinelles Lernen
Die Bewertung generativer Modelle erfordert eine rechnerische Bewertung und experimentelle Verifizierung. Zu den Standardmetriken gehören Wirksamkeit, Einzigartigkeit, Neuheit usw. Bei der Bewertung eines Modells sollten mehrere Metriken berücksichtigt werden, um die Build-Leistung vollständig zu beurteilen.
Experimentelle Verifizierung
Die erzeugten Moleküle müssen explizit durch Nassexperimente verifiziert werden, im Gegensatz zu bestehender Forschung, die sich hauptsächlich auf rechnerische Beiträge konzentriert. Während generative Modelle nicht ohne Schwächen sind, ist die Diskrepanz zwischen Vorhersagen und Experimenten auch auf das Fachwissen, die Kosten und die langen Testzyklen zurückzuführen, die für die Durchführung solcher Validierungen erforderlich sind.
Generieren von Modellgesetzen
Die meisten Studien, die über experimentelle Validierung berichten, verwenden RNN und/oder VAE mit SMILES als Betriebsobjekt. Wir fassen vier Hauptbeobachtungen zusammen:
Zukünftige Richtungen
Obwohl maschinelle Lernalgorithmen Hoffnung in die Entdeckung von Arzneimitteln mit kleinen Molekülen gebracht haben, gibt es noch weitere Herausforderungen und Chancen, denen man sich stellen muss.
Herausforderung
Gelegenheit
Autor: Du Yuanqi, Doktorand im zweiten Jahr am Fachbereich Informatik der Cornell University. Seine Hauptforschungsinteressen umfassen geometrisches Deep Learning, Wahrscheinlichkeitsmodelle, Stichprobenziehung, Suche, Optimierungsprobleme, Interpretierbarkeit und Anwendungen auf diesem Gebiet Spezifische Informationen finden Sie unter: https://yuanqidu.github.io/.
Das obige ist der detaillierte Inhalt von„Enzyklopädie' der Entdeckung von KI-basierten Wirkstoffen für kleine Moleküle, rezensiert von Forschern aus Cornell, Cambridge, der EPFL und anderen, veröffentlicht in der Unterzeitschrift „Nature'.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!