Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN.
KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat.
KAN hat die gleiche starke mathematische Grundlage wie MLP, das auf dem universellen Approximationssatz basiert, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert.
Wie in der Abbildung unten gezeigt, verfügt KAN über Aktivierungsfunktionen an Kanten, während MLP über Aktivierungsfunktionen an Knoten verfügt. KAN scheint parametereffizienter zu sein als MLP, aber jede KAN-Schicht verfügt über mehr Parameter als MLP-Schichten. Bild: [Abbildung 1: Schematische Darstellung] Kurze Erklärung: KAN ist eine kantenbasierte neuronale Netzwerkstruktur, und jeder Knoten verfügt über eine Kantengewichtung und eine Aktivierungsfunktion. Es realisiert die Übertragung und Aktualisierung von Informationen durch Kantenausbreitung. MLP ist eine knotenbasierte neuronale Netzwerkstruktur. Jeder Knoten hat einen Eingang Es wird eine lernbare nichtlineare Aktivierungsfunktion in jedem Pixel, KAN-Faltung (CKAN) vorgeschlagen und als Open Source bereitgestellt.
Projektadresse: https://github.com/AntonioTepsich/Convolutional-KANs
KAN-Faltung
KAN+-Faltung ist der Faltung sehr ähnlich, jedoch nicht im Kernel und im Bild Durch Anwenden eines Skalarprodukts zwischen entsprechenden Pixeln wird eine lernbare nichtlineare Aktivierungsfunktion auf jedes Element angewendet und dann summiert. Der Kernel der KAN+-Faltung entspricht einer KAN+-linearen Schicht mit 4 Eingabe- und 1 Ausgabeneuron. Für jede Eingabe i ist unter Anwendung der lernbaren Funktion ϕ_i das resultierende Pixel dieses Faltungsschritts die Summe von ϕ_i (x_i).
KAN-Parameter in der Faltung
Unter der Annahme, dass es einen KxK-Kernel gibt, gibt es für jedes Element dieser Matrix ein ϕ, dessen Parameteranzahl ist: Gittergröße + 1, ϕ ist definiert als:
Dies bietet mehr Ausdrückbarkeit für die Aktivierungsfunktion b, die Parameteranzahl der linearen Ebene beträgt Gittergröße + 2. Daher hat die KAN-Faltung insgesamt K^2(Gittergröße + 2) Parameter, während die normale Faltung nur K^2 hat.
Initial Evaluation
Die verschiedenen vom Autor getesteten Architekturen sind:
Kan Faltungsschicht (CKAN), die mit MLP verbunden ist)
Es ist erwähnenswert, dass der Grund für die Veröffentlichung dieser „vorläufigen“ Ergebnisse darin besteht, dass sie hoffen, diese Idee so schnell wie möglich der Außenwelt vorzustellen und eine breitere Forschung in der Community zu fördern.
Jedes Element der Liste in der Faltungsschicht enthält die Faltungsnummer und die entsprechende Kernelgröße.
Basierend auf dem 28x28 MNIST-Datensatz kann beobachtet werden, dass KANConv- und MLP-Modelle im Vergleich zu ConvNet (groß) eine akzeptable Genauigkeit erreichen. Der Unterschied besteht jedoch darin, dass KANConv und MLP siebenmal so viele Parameter erfordern wie Standard-ConvNet. Darüber hinaus ist die Genauigkeit von KKAN um 0,04 niedriger als bei ConvNet Medium, während die Anzahl der Parameter (94.000 gegenüber 157.000) fast halb so hoch ist wie die von ConvNet Medium, was das Potenzial dieser Architektur zeigt. Wir müssen auch Experimente mit weiteren Datensätzen durchführen, um diesbezüglich Schlussfolgerungen zu ziehen.
In den kommenden Tagen und Wochen werden die Autoren außerdem das Modell und die Hyperparameter der zum Vergleich verwendeten Modelle gründlich optimieren. Obwohl einige Hyperparameter- und Architekturvarianten ausprobiert wurden, ist dies nur heuristisch und folgt keinem präzisen Ansatz. Sie haben aufgrund von Rechenleistung und Zeitbeschränkungen noch nicht mit großen oder komplexeren Datensätzen gearbeitet und arbeiten an der Lösung dieses Problems.
Zukünftig wird der Autor Experimente mit komplexeren Datensätzen durchführen, was bedeutet, dass die Parametermenge von KANS zunehmen wird, da mehr KAN-Faltungsschichten implementiert werden müssen.
Derzeit gibt der Autor an, dass er im Vergleich zu herkömmlichen Faltungsnetzwerken keine signifikante Verbesserung der Leistung von KAN-Faltungsnetzwerken festgestellt hat. Ihre Analyse geht davon aus, dass dies auf die Verwendung einfacher Datensätze und Modelle zurückzuführen ist. Im Vergleich zur besten getesteten Architektur (ConvNet Big, dieser Vergleich ist aufgrund des Skalierungsfaktors unfair) besteht der Vorteil dieser Architektur darin, dass sie über eine gute Kontrolle verfügt Die Anforderungen sind deutlich geringer.
Der Vergleich zwischen zwei identischen Faltungsschichten und der KAN-Faltungsschicht mit demselben MLP am Ende zeigt, dass die klassische Methode mit einer um 0,06 erhöhten Genauigkeit etwas besser ist, während die KAN-Faltungsschicht und die KAN-Faltungsschicht linear sind. Die Anzahl der Parameter in Die Schicht ist fast halb so groß wie bei der klassischen Methode, die Genauigkeit ist jedoch um 0,04 verringert.
Der Autor gab an, dass sich die Leistung des KAN-Faltungsnetzwerks verbessern sollte, wenn die Komplexität des Modells und des Datensatzes zunimmt. Gleichzeitig wächst mit zunehmender Eingabedimension auch die Anzahl der Parameter des Modells schneller.
Das obige ist der detaillierte Inhalt vonKAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!