Übersetzer |. Li Rui
Rezensent |. Das Universum ist laut und chaotisch, so komplex, dass es für Menschen schwierig wird, es vorherzusagen. Menschliche Intelligenz und Intuition tragen zu einem grundlegenden Verständnis einiger Aktivitäten in der umgebenden Welt bei und reichen aus, um aus der begrenzten Perspektive von Einzelpersonen und kleinen Gruppen ein grundlegendes Verständnis einzelner Ereignisse auf makroskopischen Raum- und Zeitskalen zu erlangen.
Naturphilosophen in der menschlichen Vorgeschichte und Antike beschränkten sich meist auf Rationalisierungen des gesunden Menschenverstandes und das Testen von Vermutungen. Diese Methoden unterliegen erheblichen Einschränkungen, insbesondere bei Dingen, die zu groß oder komplex sind, was dazu führt, dass abergläubisches oder magisches Denken vorherrscht.
Damit geht es nicht darum, das Raten und Prüfen herabzusetzen (was die Grundlage moderner wissenschaftlicher Methoden ist), sondern um zu sehen, dass Veränderungen in der menschlichen Fähigkeit zum Untersuchen und Verstehen durch den Wunsch und die Werkzeuge ausgelöst werden, physikalische Phänomene in mathematische Ausdrücke zu destillieren.
Dies wurde besonders nach der Aufklärung unter Newton und anderen Wissenschaftlern deutlich, obwohl es auch in der Antike Spuren eines analytischen Reduktionismus gibt. Die Fähigkeit, von Beobachtungen zu mathematischen Gleichungen (und den Vorhersagen, die diese Gleichungen machen) überzugehen, ist für die wissenschaftliche Erforschung und den wissenschaftlichen Fortschritt von wesentlicher Bedeutung.
Beim Deep Learning geht es im Wesentlichen auch um das Erlernen von Transformationen im Zusammenhang mit Input-Output-Beobachtungen, genau wie Humanwissenschaftler, die versuchen, funktionale Beziehungen zwischen Inputs und Outputs in Form mathematischer Ausdrücke zu lernen.
Der Unterschied besteht natürlich darin, dass die von tiefen neuronalen Netzen erlernte Input-Output-Beziehung (das Ergebnis des universellen Approximationstheorems) aus einer nicht interpretierbaren „Black Box“ numerischer Parameter besteht, hauptsächlich Gewichte, Bias und die Knoten, die sie verbinden.
Der universelle Approximationssatz besagt, dass ein neuronales Netzwerk, das sehr entspannte Kriterien erfüllt, in der Lage sein sollte, jeder gut funktionierenden Funktion sehr nahe zu kommen. In der Praxis ist ein neuronales Netzwerk eine fragile und undichte Abstraktion, die Input-Output-Beziehungen darstellt, die sich aus einfachen, aber präzisen zugrunde liegenden Gleichungen ergeben.
Wenn nicht besonderes Augenmerk auf das Training des Modells (oder des Modellensembles) gelegt wird, um Unsicherheiten vorherzusagen, neigen neuronale Netze dazu, sehr schlecht abzuschneiden, wenn sie Vorhersagen außerhalb der Verteilung treffen, für die sie trainiert wurden.
Deep-Learning-Vorhersagen sind auch schlecht darin, falsifizierbare Vorhersagen zu treffen, d. h. unkonventionelle Annahmen, die die Grundlage der wissenschaftlichen Methode bilden. Während Deep Learning also ein bewährtes Werkzeug zur guten Datenanpassung ist, ist sein Nutzen bei einer der wichtigsten Aufgaben der Menschheit begrenzt: der Erforschung des Universums um uns herum mit wissenschaftlichen Methoden.
Obwohl Deep Learning in humanwissenschaftlichen Bestrebungen verschiedene Mängel aufweist, können die enorme Anpassungsfähigkeit und die zahlreichen Erfolge von Deep Learning in wissenschaftlichen Disziplinen nicht ignoriert werden.
Die moderne Wissenschaft produziert riesige Datenmengen, und Einzelpersonen (oder sogar Teams) können die Ausgabe dieser Daten weder beobachten noch können sie verrauschte Daten intuitiv in klare mathematische Gleichungen umwandeln.
Hierfür können Sie sich der symbolischen Regression zuwenden, einer automatisierten oder halbautomatischen Methode zur Reduzierung von Daten in Gleichungen.
Der aktuelle Goldstandard: Evolutionäre Methoden
Eureqa wurde ursprünglich als Forschungsprojekt von Hod Lipsons Team an der Cornell University entwickelt und als proprietäre Software von Nutonian bereitgestellt, das später von der DataRobot Corporation übernommen wurde. Eureqa wurde in die Datarobot-Plattform integriert, geleitet von Michael Schmidt, Co-Autor von Eureqa und CTO von Datarobot.
Eureqa und ähnliche symbolische Regressionstools verwenden genetische Algorithmen, um Gleichungssysteme gleichzeitig auf Genauigkeit und Einfachheit zu optimieren.
TuringBot ist ein alternatives symbolisches Regressionspaket, das auf simuliertem Annealing basiert. Simuliertes Glühen ist ein Optimierungsalgorithmus ähnlich dem metallurgischen Glühen, mit dem die physikalischen Eigenschaften von Metallen verändert werden.
Beim simulierten Tempern wird die „Temperatur“ bei der Auswahl von Kandidatenlösungen für das Optimierungsproblem gesenkt, wobei höhere Temperaturen der Akzeptanz schlechterer Lösungen entsprechen und zur Förderung einer frühen Erkundung verwendet werden, wodurch die Suche nach dem globalen Optimum ermöglicht und Energie bereitgestellt wird Entkomme lokalen Optima.
TuringBot ist ein weiteres symbolisches Regressionspaket, das auf simuliertem Annealing basiert. Simuliertes Glühen ist ein Optimierungsalgorithmus ähnlich dem metallurgischen Glühen, mit dem die physikalischen Eigenschaften von Metallen verändert werden.
Beim simulierten Ausglühen wird die „Temperatur“ bei der Auswahl von Kandidatenlösungen für das Optimierungsproblem gesenkt, wobei höhere Temperaturen der Akzeptanz schlechterer Lösungen entsprechen und dazu verwendet werden, eine frühe Erkundung zu fördern, die Suche nach dem globalen Optimum zu ermöglichen und Energie bereitzustellen Entkomme lokalen Optima.
TuringBot ist eine kostenlose Version, weist jedoch erhebliche Einschränkungen hinsichtlich der Größe und Komplexität des Datensatzes auf und es sind keine Codeänderungen zulässig.
Während kommerzielle symbolische Regressionssoftware (insbesondere Eureqa) eine wichtige Vergleichsbasis bei der Entwicklung neuer Tools für die symbolische Regression bietet, ist der Nutzen von Closed-Source-Programmen begrenzt.
Eine weitere Open-Source-Alternative namens PySR wird unter der Apache 2.0-Lizenz veröffentlicht und wird vom Doktoranden Miles Cranmer der Princeton University geleitet und teilt die Optimierungsziele Genauigkeit und Sparsamkeit (Einfachheit) sowie die von Eureqa und der TuringBot-Methode verwendete Kombination.
Neben der Bereitstellung einer kostenlosen und frei modifizierbaren Softwarebibliothek zur Durchführung symbolischer Regression ist PySR auch aus softwaretechnischer Sicht interessant: Es ist in Python geschrieben, nutzt aber die Programmiersprache Julia als schnelles Backend.
Während genetische Algorithmen allgemein als der aktuelle Stand der Technik für symbolische Regression gelten, kam es in den letzten Jahren zu einer aufregenden Explosion neuer symbolischer Regressionsstrategien.
Viele dieser neuen Entwicklungen nutzen moderne Deep-Learning-Modelle, entweder als Funktionsnäherungskomponenten in mehrstufigen Prozessen oder durchgängig auf der Grundlage groß angelegter Transformer-Modelle, die ursprünglich für die Verarbeitung natürlicher Sprache entwickelt wurden, und so weiter dazwischen. Alles dazwischen.
Neben neuen symbolischen Regressionswerkzeugen, die auf Deep Learning basieren, gibt es auch ein Wiederaufleben probabilistischer und statistischer Methoden, insbesondere bayesianischer statistischer Methoden.
In Kombination mit moderner Rechenleistung ist die neue Generation symbolischer Regressionssoftware nicht nur eine interessante Studie für sich, sondern bietet auch echten Nutzen und Beiträge zu wissenschaftlichen Disziplinen, einschließlich großer Datensätze und umfassender Experimente.
Aufgrund des von Cybenko und Hornik Ende der 1980er/Anfang der 1990er Jahre beschriebenen und untersuchten universellen Approximationssatzes kann man davon ausgehen, dass neuronale Netze mit mindestens einer nichtlinearen Aktivierungsschicht in der Lage sind, sich anzunähern jede wohlerzogene mathematische Funktion.
In der Praxis werden tiefere neuronale Netze tendenziell verwendet, um eine bessere Leistung bei komplexeren Problemen zu erzielen. Grundsätzlich ist jedoch eine verborgene Schicht erforderlich, um verschiedene Funktionen anzunähern.
Der von der Physik inspirierte KI-Feynman-Algorithmus nutzt den universellen Approximationssatz als Teil eines komplexeren Puzzles.
AI Feynman (und sein Nachfolger AI Feynman 2.0) wurde von den Physikern Silviu-Marian Udrescu und Max Tegmark (und einigen Kollegen) entwickelt. AI Feynman nutzt funktionale Eigenschaften, die in vielen physikalischen Gleichungen vorkommen, wie unter anderem Glätte, Symmetrie und Zusammensetzung.
Neuronale Netze fungieren als Funktionsnäherungen, lernen die in einem Datensatz dargestellten Input-Output-Transformationspaare und erleichtern die Untersuchung dieser Eigenschaften durch die Generierung synthetischer Daten unter denselben funktionalen Transformationen.
Die von AI Feynman zur Lösung von Problemen verwendeten funktionalen Eigenschaften kommen in physikalischen Gleichungen häufig vor, können jedoch nicht beliebig auf den Raum aller möglichen mathematischen Funktionen angewendet werden. Es handelt sich jedoch immer noch um vernünftige Annahmen, nach denen in verschiedenen Funktionen gesucht werden muss, die der realen Welt entsprechen.
Wie der zuvor beschriebene genetische Algorithmus und die simulierten Annealing-Methoden passt AI Feynman jeden neuen Datensatz von Grund auf an. Es ist keine Verallgemeinerung oder Vorschulung erforderlich, und tiefe neuronale Netze bilden nur einen orchestrierten Teil eines größeren, physikalisch informationsreichen Systems.
AI Die symbolische Regression von Feynman leistet hervorragende Arbeit bei der Entschlüsselung der 100 Gleichungen (oder Rätsel) in Feynmans Physikvorlesungen, aber die fehlende Verallgemeinerung bedeutet, dass jeder neue Datensatz (entsprechend einer neuen Gleichung) ein großes Rechenbudget erfordert.
Eine neue Reihe von Deep-Learning-Strategien für die symbolische Regression nutzt die äußerst erfolgreiche Familie der Transformer-Modelle, die ursprünglich von Vaswani et al. als Modelle in natürlicher Sprache eingeführt wurden. Diese neuen Methoden sind nicht perfekt, aber die Verwendung eines Vortrainings kann bei der Inferenz viel Rechenzeit einsparen.
Angesichts der Rolle des aufmerksamkeitsbasierten, sehr großen Transformer-Modells in Computer Vision, Audio, Reinforcement Learning, Empfehlungssystemen und vielen anderen Bereichen (zusätzlich zu ihrer ursprünglichen Rolle in textbasierten natürlichen (Sprachverarbeitung) Nachdem das Transformer-Modell bei verschiedenen Aufgaben große Erfolge erzielt hat, ist es nicht verwunderlich, dass es schließlich auch auf die symbolische Regression angewendet wird.
Während die Konvertierung numerischer Eingabe-Ausgabe-Paare in symbolische Sequenzen eine sorgfältige Planung erfordert, bietet sich die sequenzbasierte Natur mathematischer Ausdrücke natürlich für Transformer-Methoden an.
Entscheidend ist, dass die Verwendung von Transformern zur Generierung mathematischer Ausdrücke es ihnen ermöglicht, die Struktur und numerische Bedeutung von Millionen automatisch generierter Gleichungen vorab zu trainieren.
Damit wird auch der Grundstein für die Verbesserung des Modells durch Skalierung gelegt. Die Skalierung ist einer der Hauptvorteile des Deep Learning, bei dem größere Modelle und mehr Daten die Modellleistung weit über die klassischen statistischen Lernbeschränkungen der Überanpassung hinaus verbessern.
Skalierung ist der Hauptvorteil, den Biggio et al. in ihrem Artikel mit dem Titel „Scalable Neural Symbolic Regression“ namens NSRTS erwähnen. Das NSRTS-Transformer-Modell verwendet einen dedizierten Encoder, um jedes Eingabe-Ausgabe-Paar des Datensatzes in einen latenten Raum umzuwandeln. Der codierte latente Raum hat eine feste Größe, unabhängig von der Eingabegröße des Encoders.
Der NSRTS-Decoder erstellt eine Folge von Token zur Darstellung einer Gleichung, abhängig vom codierten latenten Raum und den bisher generierten Symbolen. Entscheidend ist, dass der Decoder nur Platzhalter für numerische Konstanten ausgibt, ansonsten aber das gleiche Vokabular wie der vorab trainierte Gleichungsdatensatz verwendet.
NSRTS verwendet PyTorch und PyTorch Lightning und verfügt über eine freizügige Open-Source-MIT-Lizenz.
Nachdem NSRTS konstante-freie Gleichungen (sogenannte Gleichungsskelette) generiert hat, verwendet NSRTS den Gradientenabstieg, um die Konstanten zu optimieren. Bei diesem Ansatz wird ein allgemeiner Optimierungsalgorithmus über die Sequenzgenerierung gelegt, der auch vom sogenannten „SymbolicGPT“ verwendet wird, das gleichzeitig von Valipour et al. entwickelt wurde.
Valipour et al. verwendeten keinen aufmerksamkeitsbasierten Encoder wie bei der NSRTS-Methode. Stattdessen wird ein Modell basierend auf dem Stanford-Punktwolkenmodell PointNet verwendet, um einen festdimensionalen Merkmalssatz zu generieren, der vom Transformer-Decoder zur Generierung von Gleichungen verwendet wird. Wie NSRT verwendet Symbolic GPT BFGS, um die numerischen Konstanten des vom Transformer-Decoder generierten Gleichungsskeletts zu finden.
Obwohl einige neuere Artikel die Verwendung von NLP-Transformatoren (Natural Language Processing) beschreiben, um eine Verallgemeinerung und Reproduzierbarkeit der symbolischen Regression zu erreichen Skalierbar, Die oben genannten Modelle sind jedoch nicht wirklich durchgängig, da sie keine numerischen Konstanten schätzen.
Das kann ein schwerwiegender Fehler sein: Stellen Sie sich ein Modell vor, das Gleichungen mit 1000 Sinusbasen unterschiedlicher Frequenz generieren kann. Die Optimierung der Koeffizienten jedes Termes mithilfe von BFGS wird wahrscheinlich für die meisten Eingabedatensätze gut geeignet sein, aber in Wirklichkeit ist es nur eine langsame und umständliche Methode zur Durchführung einer Fourier-Analyse.
Erst im Frühjahr 2022 wurde das Transformer-basierte symbolische Regressionsmodell der zweiten Generation auf ArXiv von Vastl et al. auf SymFormer veröffentlicht, während ein weiterer End-to-End-Transformer von Kamienny und veröffentlicht wurde Kollegen.
Der wichtige Unterschied zwischen diesen und früheren transformatorbasierten symbolischen Regressionsmodellen besteht darin, dass sie sowohl numerische Konstanten als auch symbolische mathematische Sequenzen vorhersagen.
SymFormer verwendet einen doppelköpfigen Transformer-Decoder, um eine durchgängige symbolische Regression durchzuführen. Ein Kopf produziert mathematische Symbole und der zweite Kopf lernt die Aufgabe der numerischen Regression, also das Schätzen numerischer Konstanten, die in Gleichungen vorkommen.
Die End-to-End-Modelle von Kamienny und Vastl unterscheiden sich in Details, wie etwa der Genauigkeit numerischer Schätzungen, aber die Lösungen beider Gruppen beruhen immer noch auf nachfolgenden Optimierungsschritten zur Verfeinerung.
Dennoch haben sie laut den Autoren schnellere Inferenzzeiten als frühere Methoden und liefern genauere Ergebnisse, erzeugen bessere Gleichungsskelette und bieten gute Optimierungsschritte, Startpunkte und geschätzte Konstanten.
In den meisten Fällen war die symbolische Regression im letzten Jahrzehnt eine elegante und rechenintensive Methode des maschinellen Lernens weniger Aufmerksamkeit als allgemeines Deep Learning.
Dies ist zum Teil auf den „Use it and lose it“-Ansatz genetischer oder probabilistischer Methoden zurückzuführen, bei dem sie für jeden neuen Datensatz von vorne beginnen müssen, eine Eigenschaft, die mit Deep Learning nicht vereinbar ist Symbolische Regression (z. B. AI Feynman) ist das Gleiche.
Die Verwendung des Transformers als integraler Bestandteil der symbolischen Regression ermöglicht es neueren Modellen, die Vorteile eines groß angelegten Vortrainings zu nutzen, wodurch der Energie-, Zeit- und Rechenhardwarebedarf zur Inferenzzeit reduziert wird.
Dieser Trend wurde durch neue Modelle weiter ausgebaut, die numerische Konstanten schätzen und mathematische Symbole vorhersagen können, was schnellere Schlussfolgerungen und höhere Genauigkeit ermöglicht.
Die Aufgabe, symbolische Ausdrücke zu erzeugen, die wiederum zur Generierung überprüfbarer Hypothesen verwendet werden können, ist eine sehr menschliche Aufgabe und steht im Mittelpunkt der Wissenschaft. Automatisierte Methoden der symbolischen Regression haben in den letzten zwei Jahrzehnten weiterhin interessante technische Fortschritte gemacht, aber der eigentliche Test besteht darin, ob sie für Forscher, die echte Wissenschaft betreiben, nützlich sind.
Die symbolische Regression führt zunehmend zu veröffentlichungsfähigen wissenschaftlichen Ergebnissen, die über technische Demonstrationen hinausgehen. Ein bayesianischer symbolischer Regressionsansatz liefert ein neues mathematisches Modell zur Vorhersage der Zellteilung.
Ein anderes Forschungsteam verwendete ein spärliches Regressionsmodell, um vernünftige Gleichungen für Meeresturbulenzen zu erstellen und damit den Weg für verbesserte multiskalige Klimamodelle zu ebnen.
Ein Projekt, das graphische neuronale Netze und symbolische Regression mit dem genetischen Algorithmus von Eureqa kombiniert, verallgemeinert Ausdrücke, die die Vielteilchengravitation beschreiben, und leitet eine neue Gleichung ab, die die Verteilung der Dunklen Materie aus herkömmlichen Simulatoren beschreibt.
Die symbolische Regression wird zu einem leistungsstarken Werkzeug im Werkzeugkasten des Wissenschaftlers. Die Verallgemeinerung und Skalierbarkeit transformatorbasierter Methoden ist nach wie vor ein heißes Thema und hat noch keinen Eingang in die allgemeine wissenschaftliche Praxis gefunden. Da immer mehr Forscher das Modell anpassen und verbessern, verspricht es, wissenschaftliche Entdeckungen weiter voranzutreiben.
Viele dieser Projekte werden unter Open-Source-Lizenzen durchgeführt, sodass Sie davon ausgehen können, dass sie innerhalb weniger Jahre Wirkung zeigen und ihre Anwendung möglicherweise umfassender ist als proprietäre Software wie Eureqa und TuringBot.
Symbolische Regression ist eine natürliche Ergänzung zu den Ergebnissen von Deep-Learning-Modellen, die oft mysteriös und schwer zu interpretieren sind, während eine verständlichere Ausgabe in mathematischer Sprache dabei helfen kann, neue überprüfbare Hypothesen zu generieren und intuitive Sprünge voranzutreiben .
Diese Funktionen und die unkomplizierten Fähigkeiten der neuesten Generation symbolischer Regressionsalgorithmen versprechen größere Möglichkeiten für Momente bedeutender Entdeckungen.
Das obige ist der detaillierte Inhalt vonNeurosymbolische Regression: Wissenschaft aus Daten extrahieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!