


Das Modell des maschinellen Lernens klassifiziert organische Reaktionsmechanismen mit herausragender Genauigkeit
Die Entdeckung chemischer Reaktionen wird nicht nur davon beeinflusst, wie schnell experimentelle Daten erhalten werden können, sondern auch davon, wie einfach es für Chemiker ist, diese Daten zu verstehen. Die Aufdeckung der mechanistischen Grundlagen neuer katalytischer Reaktionen ist ein besonders komplexes Problem, das oft Fachwissen in der rechnerischen und physikalischen organischen Chemie erfordert. Es ist jedoch wichtig, katalytische Reaktionen zu untersuchen, da sie die effizientesten chemischen Prozesse darstellen.
Kürzlich berichteten Burés und Larrosa vom Department of Chemistry der University of Manchester (UoM), Großbritannien, über ein Modell für maschinelles Lernen, das zeigt, dass tief trainieren kann Modell neuronaler Netze zur Analyse allgemeiner kinetischer Daten und zur automatischen Erläuterung der entsprechenden mechanistischen Kategorien ohne zusätzliche Benutzereingaben. Das Modell identifiziert verschiedene Arten von Mechanismen mit hervorragender Genauigkeit.
Die Ergebnisse zeigen, dass die KI-gesteuerte Mechanismusklassifizierung ein leistungsstarkes neues Werkzeug ist, das die Mechanismusaufklärung vereinfachen und automatisieren kann. Es wird erwartet, dass diese Arbeit die Entdeckung und Entwicklung vollautomatisierter organischer Reaktionen weiter vorantreibt.
Die Forschung trug den Titel „Organischer Reaktionsmechanismus durch maschinelles Lernen“ und wurde am 25. Januar 2023 in „# 🎜🎜#“ veröffentlicht. Natur》Up.
Papierlink: https: //www.nature.com/articles/s41586-022-05639-4
Traditionelle Aufklärung des chemischen Reaktionsmechanismus# Bestimmung Die genaue Abfolge der grundlegenden Schritte bei der Umwandlung von Substraten in Produkte ist entscheidend für die rationale Verbesserung von Synthesemethoden, die Entwicklung neuer Katalysatoren und die sichere Vergrößerung industrieller Prozesse. Um den Reaktionsmechanismus aufzuklären, müssen mehrere kinetische Kurven erfasst und menschliche Experten müssen eine kinetische Analyse der Daten durchführen. Obwohl sich die Reaktionsüberwachungstechnologie in den letzten Jahrzehnten so weit verbessert hat, dass die kinetische Datenerfassung vollständig automatisiert werden kann, hat sich der theoretische Rahmen, der der mechanistischen Aufklärung zugrunde liegt, nicht im gleichen Tempo weiterentwickelt.
Die aktuelle Kinetikanalyse-Pipeline besteht aus drei Hauptschritten: Extrahieren kinetischer Eigenschaften aus experimentellen Daten, Vorhersage kinetischer Eigenschaften für alle möglichen Mechanismen und Extrahieren der experimentellen Eigenschaften mit den vorhergesagten Eigenschaften.
Seit mehr als einem Jahrhundert extrahieren Chemiker mechanistische Informationen aus Reaktionsgeschwindigkeiten. Eine heute noch verwendete Methode besteht darin, die Anfangsgeschwindigkeit einer Reaktion zu bewerten und sich dabei auf den Verbrauch der ersten paar Prozent des Ausgangsmaterials zu konzentrieren. Diese Methode ist beliebt, da die zeitliche Änderung der Reaktantenkonzentration zu Beginn der Reaktion in den meisten Fällen linear ist und daher einfach zu analysieren ist. Obwohl diese Technik aufschlussreich ist, ignoriert sie Änderungen der Reaktionsgeschwindigkeiten und -konzentrationen, die über einen Großteil des Zeitverlaufs auftreten.
In den letzten Jahrzehnten wurden fortschrittlichere Methoden entwickelt, um die Konzentrationen von Reaktionskomponenten während des Reaktionsprozesses zu bewerten. Diese Methoden werden durch mathematische Techniken weiter erleichtert, die die Anzahl der an einem Reaktionsschritt beteiligten Komponenten (auch bekannt als die Reihenfolge der Reaktionskomponenten) aus reaktionskinetischen Diagrammen erkennen lassen. Diese Techniken werden sicherlich weiterhin Einblicke in die chemische Reaktivität liefern, sie beschränken sich jedoch auf die Analyse der Reihenfolge der Reaktionskomponenten und nicht auf die Bereitstellung einer umfassenderen mechanistischen Hypothese, die das kinetische Verhalten eines katalytischen Systems beschreibt.
Abbildung 1: Korrelationssumme der kinetischen Analyse Neueste Technologie . (Quelle: Paper)
KI verändert den Bereich der Dynamikanalyse
Maschinelles Lernen verändert sich und revolutioniert die Art und Weise, wie Chemiker Probleme lösen, vom Entwurf von Molekülen und Routen über die Synthese von Molekülen bis hin zum Verständnis von Reaktionsmechanismen. Burés und Larrosa übertragen diese Revolution nun auf die kinetische Analyse, indem sie Modelle des maschinellen Lernens verwenden, um Reaktionen anhand ihrer simulierten kinetischen Eigenschaften zu klassifizieren.
Hier zeigen Forscher, dass ein auf simulierten Kinetikdaten trainiertes Deep-Learning-Modell in der Lage ist, verschiedene Mechanismen aus zeitlichen Konzentrationsverteilungen korrekt aufzuklären. Modelle für maschinelles Lernen vereinfachen die kinetische Analyse, indem sie die Ableitung von Geschwindigkeitsgesetzen sowie die Extraktion und Vorhersage kinetischer Eigenschaften überflüssig machen und so die Aufklärung von Reaktionsmechanismen in allen Syntheselabors erheblich erleichtern.
Aufgrund der ganzheitlichen Analyse aller verfügbaren kinetischen Daten verbessert diese Methode die Fähigkeit zur Abfrage von Reaktionskurven, eliminiert potenzielle menschliche Fehler während der kinetischen Analyse und erweitert den Bereich der analysierbaren Kinetik um nicht-stationäre Zustände (einschließlich Aktivierung und Desaktivierungsprozesse) und reversible Reaktionen. Dieser Ansatz würde die derzeit verfügbaren kinetischen Analysemethoden ergänzen und wäre besonders in den schwierigsten Situationen nützlich.
Spezifische Forschung
Forscher definierten 20 Arten von Reaktionsmechanismen und entwickelten Geschwindigkeitsgesetze für jeden Typ. Jeder Mechanismus wird mathematisch durch einen Satz kinetischer Konstanten (k1, … kn) und eine Funktion der gewöhnlichen Differentialgleichung (ODE) der Konzentration der chemischen Spezies beschrieben. Anschließend lösten sie diese Gleichungen und erstellten Millionen von Simulationen, die den Zerfall von Reaktanten und die Produktion von Produkten beschreiben. Diese simulierten Kinetikdaten werden verwendet, um Lernalgorithmen zu trainieren, um charakteristische Signaturen für jede mechanistische Klasse zu identifizieren. Das resultierende Klassifizierungsmodell verwendet kinetische Kurven als Eingabe, einschließlich Anfangs- und Zeitkonzentrationsdaten, und gibt die mechanistische Klasse der Reaktion aus.
Abbildung 2: Mechanistischer Umfang und Datenzusammensetzung. (Quelle: Paper)
Das Training von Deep-Learning-Modellen erfordert oft große Datenmengen, was erhebliche Herausforderungen darstellen kann, wenn diese Daten experimentell erfasst werden müssen.
Der Ansatz von Burés und Larrosa zum Trainieren des Algorithmus vermeidet den Engpass bei der Generierung großer Mengen experimenteller kinetischer Daten. In diesem Fall konnten die Forscher eine Reihe von ODEs numerisch lösen, um 5 Millionen Dynamikproben für das Modelltraining und die Validierung zu generieren, ohne stationäre Näherungen zu verwenden.
Das Modell enthält 576.000 trainierbare Parameter und verwendet eine Kombination aus zwei Arten von neuronalen Netzen: (1) neuronales Netzwerk mit langem Kurzzeitgedächtnis, ein wiederkehrendes neuronales Netzwerk, das zur Verarbeitung von Zeitdatenreihen (d. h. Zeitkonzentrationsdaten) verwendet wird; (2) Vollständig verbundenes neuronales Netzwerk zur Verarbeitung nichtzeitlicher Daten (d. h. anfängliche Konzentration des Katalysators und Merkmale, die bei jedem kinetischen Lauf aus dem Langzeitgedächtnis extrahiert werden). Das Modell gibt für jeden Mechanismus eine Wahrscheinlichkeit aus, die sich auf 1 summiert.
Die Forscher bewerteten das trainierte Modell anhand eines Testsatzes simulierter kinetischer Kurven und zeigten, dass es diese Kurven mit einer Genauigkeit von 92,6 % korrekt den Mechanismusklassen zuordnete.
Abbildung 3: Leistung des maschinellen Lernmodells auf dem Testsatz, mit sechs Zeitpunkten für jede kinetische Kurve. (Quelle: Papier)
Das Modell funktioniert auch dann gut, wenn absichtlich „verrauschte“ Daten eingeführt werden, was bedeutet, dass es zur Klassifizierung experimenteller Daten verwendet werden kann.
Abbildung 4: Die Auswirkung von Fehlern und der Anzahl der Datenpunkte auf die Leistung des maschinellen Lernmodells. (Quelle: Papier)
Schließlich verglichen die Forscher ihr Modell anhand mehrerer zuvor berichteter experimenteller kinetischer Kurven. Der vorhergesagte Mechanismus stimmt gut mit den Schlussfolgerungen früherer kinetischer Studien überein. In einigen Fällen identifizierte das Modell auch mechanistische Details, die in der Originalarbeit nicht erkannt wurden. Für eine anspruchsvolle Reaktion schlägt das Modell drei sehr ähnliche mechanistische Kategorien vor. Allerdings geben die Autoren zu Recht an, dass es sich bei diesem Ergebnis nicht um einen Fehler, sondern um ein Merkmal ihres Modells handelt, da es darauf hindeutet, dass weitere spezifische Experimente erforderlich sind, um den Mechanismus zu erforschen. Abbildung 5: Fall mit experimentellen kinetischen Daten Forschung. (Quelle: Papier)
Zusammenfassend haben Burés und Larrosa eine Methode entwickelt, die nicht nur die Ableitung mechanistischer Hypothesen aus kinetischen Studien automatisiert, sondern auch den langen Prozess ermöglicht die kinetische Analyse anspruchsvoller Reaktionsmechanismen. Wie bei jedem technologischen Fortschritt in der Datenanalyse sollten die daraus resultierenden mechanistischen Klassifizierungen als Hypothesen betrachtet werden, die einer weiteren experimentellen Unterstützung bedürfen. Es besteht immer die Gefahr einer Fehlinterpretation kinetischer Daten, aber die Fähigkeit des Algorithmus, den richtigen Reaktionspfad mit hoher Genauigkeit auf der Grundlage einer kleinen Anzahl von Experimenten zu identifizieren, könnte mehr Forscher davon überzeugen, eine kinetische Analyse auszuprobieren.
Somit könnte dieser Ansatz die Einbeziehung der kinetischen Analyse in Reaktionsentwicklungsprozesse populär machen und vorantreiben, insbesondere da Chemiker immer vertrauter mit Algorithmen des maschinellen Lernens werden.
Das obige ist der detaillierte Inhalt vonDas Modell des maschinellen Lernens klassifiziert organische Reaktionsmechanismen mit herausragender Genauigkeit. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



In den Bereichen maschinelles Lernen und Datenwissenschaft stand die Interpretierbarkeit von Modellen schon immer im Fokus von Forschern und Praktikern. Mit der weit verbreiteten Anwendung komplexer Modelle wie Deep Learning und Ensemble-Methoden ist das Verständnis des Entscheidungsprozesses des Modells besonders wichtig geworden. Explainable AI|XAI trägt dazu bei, Vertrauen in maschinelle Lernmodelle aufzubauen, indem es die Transparenz des Modells erhöht. Eine Verbesserung der Modelltransparenz kann durch Methoden wie den weit verbreiteten Einsatz mehrerer komplexer Modelle sowie der Entscheidungsprozesse zur Erläuterung der Modelle erreicht werden. Zu diesen Methoden gehören die Analyse der Merkmalsbedeutung, die Schätzung des Modellvorhersageintervalls, lokale Interpretierbarkeitsalgorithmen usw. Die Merkmalswichtigkeitsanalyse kann den Entscheidungsprozess des Modells erklären, indem sie den Grad des Einflusses des Modells auf die Eingabemerkmale bewertet. Schätzung des Modellvorhersageintervalls

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Zu den häufigsten Herausforderungen, mit denen Algorithmen für maschinelles Lernen in C++ konfrontiert sind, gehören Speicherverwaltung, Multithreading, Leistungsoptimierung und Wartbarkeit. Zu den Lösungen gehören die Verwendung intelligenter Zeiger, moderner Threading-Bibliotheken, SIMD-Anweisungen und Bibliotheken von Drittanbietern sowie die Einhaltung von Codierungsstilrichtlinien und die Verwendung von Automatisierungstools. Praktische Fälle zeigen, wie man die Eigen-Bibliothek nutzt, um lineare Regressionsalgorithmen zu implementieren, den Speicher effektiv zu verwalten und leistungsstarke Matrixoperationen zu nutzen.

Um große Sprachmodelle (LLMs) an menschlichen Werten und Absichten auszurichten, ist es wichtig, menschliches Feedback zu lernen, um sicherzustellen, dass sie nützlich, ehrlich und harmlos sind. Im Hinblick auf die Ausrichtung von LLM ist Reinforcement Learning basierend auf menschlichem Feedback (RLHF) eine wirksame Methode. Obwohl die Ergebnisse der RLHF-Methode ausgezeichnet sind, gibt es einige Herausforderungen bei der Optimierung. Dazu gehört das Training eines Belohnungsmodells und die anschließende Optimierung eines Richtlinienmodells, um diese Belohnung zu maximieren. Kürzlich haben einige Forscher einfachere Offline-Algorithmen untersucht, darunter die direkte Präferenzoptimierung (Direct Preference Optimization, DPO). DPO lernt das Richtlinienmodell direkt auf der Grundlage von Präferenzdaten, indem es die Belohnungsfunktion in RLHF parametrisiert, wodurch die Notwendigkeit eines expliziten Belohnungsmodells entfällt. Diese Methode ist einfach und stabil

Maschinelles Lernen ist ein wichtiger Zweig der künstlichen Intelligenz, der Computern die Möglichkeit gibt, aus Daten zu lernen und ihre Fähigkeiten zu verbessern, ohne explizit programmiert zu werden. Maschinelles Lernen hat ein breites Anwendungsspektrum in verschiedenen Bereichen, von der Bilderkennung und der Verarbeitung natürlicher Sprache bis hin zu Empfehlungssystemen und Betrugserkennung, und es verändert unsere Lebensweise. Im Bereich des maschinellen Lernens gibt es viele verschiedene Methoden und Theorien, von denen die fünf einflussreichsten Methoden als „Fünf Schulen des maschinellen Lernens“ bezeichnet werden. Die fünf Hauptschulen sind die symbolische Schule, die konnektionistische Schule, die evolutionäre Schule, die Bayes'sche Schule und die Analogieschule. 1. Der Symbolismus, auch Symbolismus genannt, betont die Verwendung von Symbolen zum logischen Denken und zum Ausdruck von Wissen. Diese Denkrichtung glaubt, dass Lernen ein Prozess der umgekehrten Schlussfolgerung durch das Vorhandene ist

Übersetzer |. Rezensiert von Li Rui |. Chonglou Modelle für künstliche Intelligenz (KI) und maschinelles Lernen (ML) werden heutzutage immer komplexer, und die von diesen Modellen erzeugten Ergebnisse sind eine Blackbox, die den Stakeholdern nicht erklärt werden kann. Explainable AI (XAI) zielt darauf ab, dieses Problem zu lösen, indem es Stakeholdern ermöglicht, die Funktionsweise dieser Modelle zu verstehen, sicherzustellen, dass sie verstehen, wie diese Modelle tatsächlich Entscheidungen treffen, und Transparenz in KI-Systemen, Vertrauen und Verantwortlichkeit zur Lösung dieses Problems gewährleistet. In diesem Artikel werden verschiedene Techniken der erklärbaren künstlichen Intelligenz (XAI) untersucht, um ihre zugrunde liegenden Prinzipien zu veranschaulichen. Mehrere Gründe, warum erklärbare KI von entscheidender Bedeutung ist. Vertrauen und Transparenz: Damit KI-Systeme allgemein akzeptiert und vertrauenswürdig sind, müssen Benutzer verstehen, wie Entscheidungen getroffen werden

An der Spitze der Softwaretechnologie kündigte die Gruppe von UIUC Zhang Lingming zusammen mit Forschern der BigCode-Organisation kürzlich das StarCoder2-15B-Instruct-Großcodemodell an. Diese innovative Errungenschaft erzielte einen bedeutenden Durchbruch bei Codegenerierungsaufgaben, übertraf erfolgreich CodeLlama-70B-Instruct und erreichte die Spitze der Codegenerierungsleistungsliste. Die Einzigartigkeit von StarCoder2-15B-Instruct liegt in seiner reinen Selbstausrichtungsstrategie. Der gesamte Trainingsprozess ist offen, transparent und völlig autonom und kontrollierbar. Das Modell generiert über StarCoder2-15B Tausende von Anweisungen als Reaktion auf die Feinabstimmung des StarCoder-15B-Basismodells, ohne auf teure manuelle Annotationen angewiesen zu sein.

MetaFAIR hat sich mit Harvard zusammengetan, um einen neuen Forschungsrahmen zur Optimierung der Datenverzerrung bereitzustellen, die bei der Durchführung groß angelegten maschinellen Lernens entsteht. Es ist bekannt, dass das Training großer Sprachmodelle oft Monate dauert und Hunderte oder sogar Tausende von GPUs verwendet. Am Beispiel des Modells LLaMA270B erfordert das Training insgesamt 1.720.320 GPU-Stunden. Das Training großer Modelle stellt aufgrund des Umfangs und der Komplexität dieser Arbeitsbelastungen einzigartige systemische Herausforderungen dar. In letzter Zeit haben viele Institutionen über Instabilität im Trainingsprozess beim Training generativer SOTA-KI-Modelle berichtet. Diese treten normalerweise in Form von Verlustspitzen auf. Beim PaLM-Modell von Google kam es beispielsweise während des Trainingsprozesses zu Instabilitäten. Numerische Voreingenommenheit ist die Hauptursache für diese Trainingsungenauigkeit.
