KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert

WBOY
Freigeben: 2024-06-01 22:03:37
Original
889 Leute haben es durchsucht

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN.

KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat.

KAN hat die gleiche starke mathematische Grundlage wie MLP, das auf dem universellen Approximationssatz basiert, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert.

Wie in der Abbildung unten gezeigt, verfügt KAN über Aktivierungsfunktionen an Kanten, während MLP über Aktivierungsfunktionen an Knoten verfügt. KAN scheint parametereffizienter zu sein als MLP, aber jede KAN-Schicht verfügt über mehr Parameter als MLP-Schichten. Bild: [Abbildung 1: Schematische Darstellung] Kurze Erklärung: KAN ist eine kantenbasierte neuronale Netzwerkstruktur, und jeder Knoten verfügt über eine Kantengewichtung und eine Aktivierungsfunktion. Es realisiert die Übertragung und Aktualisierung von Informationen durch Kantenausbreitung. MLP ist eine knotenbasierte neuronale Netzwerkstruktur. Jeder Knoten hat einen Eingang Es wird eine lernbare nichtlineare Aktivierungsfunktion in jedem Pixel, KAN-Faltung (CKAN) vorgeschlagen und als Open Source bereitgestellt.

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert

Projektadresse: https://github.com/AntonioTepsich/Convolutional-KANs

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitertKAN-Faltung

KAN+-Faltung ist der Faltung sehr ähnlich, jedoch nicht im Kernel und im Bild Durch Anwenden eines Skalarprodukts zwischen entsprechenden Pixeln wird eine lernbare nichtlineare Aktivierungsfunktion auf jedes Element angewendet und dann summiert. Der Kernel der KAN+-Faltung entspricht einer KAN+-linearen Schicht mit 4 Eingabe- und 1 Ausgabeneuron. Für jede Eingabe i ist unter Anwendung der lernbaren Funktion ϕ_i das resultierende Pixel dieses Faltungsschritts die Summe von ϕ_i (x_i).

KAN-Parameter in der Faltung

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert

Unter der Annahme, dass es einen KxK-Kernel gibt, gibt es für jedes Element dieser Matrix ein ϕ, dessen Parameteranzahl ist: Gittergröße + 1, ϕ ist definiert als:

Dies bietet mehr Ausdrückbarkeit für die Aktivierungsfunktion b, die Parameteranzahl der linearen Ebene beträgt Gittergröße + 2. Daher hat die KAN-Faltung insgesamt K^2(Gittergröße + 2) Parameter, während die normale Faltung nur K^2 hat.

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitertInitial Evaluation

Die verschiedenen vom Autor getesteten Architekturen sind:

kan Faltungsschicht (KKAN), die mit der Kanearschicht verbunden sind

Kan Faltungsschicht (CKAN), die mit MLP verbunden ist)
  • CKAN (CKAN_BN) mit Batch-Normalisierung zwischen Faltungen
  • ConvNet (klassische Faltung verbunden mit MLP) (ConvNet)
  • Einfaches MLP
  • Der Autor gibt an die Implementierung der KAN-Faltung ist eine vielversprechende Idee, obwohl sie noch in den Kinderschuhen steckt. Sie führten einige vorläufige Experimente durch, um die Leistung von KAN-Faltungen zu bewerten.

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitertEs ist erwähnenswert, dass der Grund für die Veröffentlichung dieser „vorläufigen“ Ergebnisse darin besteht, dass sie hoffen, diese Idee so schnell wie möglich der Außenwelt vorzustellen und eine breitere Forschung in der Community zu fördern.

Jedes Element der Liste in der Faltungsschicht enthält die Faltungsnummer und die entsprechende Kernelgröße.

Basierend auf dem 28x28 MNIST-Datensatz kann beobachtet werden, dass KANConv- und MLP-Modelle im Vergleich zu ConvNet (groß) eine akzeptable Genauigkeit erreichen. Der Unterschied besteht jedoch darin, dass KANConv und MLP siebenmal so viele Parameter erfordern wie Standard-ConvNet. Darüber hinaus ist die Genauigkeit von KKAN um 0,04 niedriger als bei ConvNet Medium, während die Anzahl der Parameter (94.000 gegenüber 157.000) fast halb so hoch ist wie die von ConvNet Medium, was das Potenzial dieser Architektur zeigt. Wir müssen auch Experimente mit weiteren Datensätzen durchführen, um diesbezüglich Schlussfolgerungen zu ziehen.

In den kommenden Tagen und Wochen werden die Autoren außerdem das Modell und die Hyperparameter der zum Vergleich verwendeten Modelle gründlich optimieren. Obwohl einige Hyperparameter- und Architekturvarianten ausprobiert wurden, ist dies nur heuristisch und folgt keinem präzisen Ansatz. Sie haben aufgrund von Rechenleistung und Zeitbeschränkungen noch nicht mit großen oder komplexeren Datensätzen gearbeitet und arbeiten an der Lösung dieses Problems.

Zukünftig wird der Autor Experimente mit komplexeren Datensätzen durchführen, was bedeutet, dass die Parametermenge von KANS zunehmen wird, da mehr KAN-Faltungsschichten implementiert werden müssen.

Fazit

Derzeit gibt der Autor an, dass er im Vergleich zu herkömmlichen Faltungsnetzwerken keine signifikante Verbesserung der Leistung von KAN-Faltungsnetzwerken festgestellt hat. Ihre Analyse geht davon aus, dass dies auf die Verwendung einfacher Datensätze und Modelle zurückzuführen ist. Im Vergleich zur besten getesteten Architektur (ConvNet Big, dieser Vergleich ist aufgrund des Skalierungsfaktors unfair) besteht der Vorteil dieser Architektur darin, dass sie über eine gute Kontrolle verfügt Die Anforderungen sind deutlich geringer.

Der Vergleich zwischen zwei identischen Faltungsschichten und der KAN-Faltungsschicht mit demselben MLP am Ende zeigt, dass die klassische Methode mit einer um 0,06 erhöhten Genauigkeit etwas besser ist, während die KAN-Faltungsschicht und die KAN-Faltungsschicht linear sind. Die Anzahl der Parameter in Die Schicht ist fast halb so groß wie bei der klassischen Methode, die Genauigkeit ist jedoch um 0,04 verringert.

Der Autor gab an, dass sich die Leistung des KAN-Faltungsnetzwerks verbessern sollte, wenn die Komplexität des Modells und des Datensatzes zunimmt. Gleichzeitig wächst mit zunehmender Eingabedimension auch die Anzahl der Parameter des Modells schneller.

Das obige ist der detaillierte Inhalt vonKAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!