In den letzten etwa zehn Jahren war die rasante Entwicklung der KI hauptsächlich auf Fortschritte in der Ingenieurspraxis zurückzuführen. Die KI-Theorie hat bei der Steuerung der Algorithmenentwicklung immer noch keine Rolle gespielt.
Mit der Popularität von ChatGPT wurden die Fähigkeiten der KI ständig übertrieben und gehypt, bis hin zur Bedrohung und Entführung der Gesellschaft. Es ist dringend erforderlich, das Design der Transformer-Architektur transparent zu machen!
Kürzlich veröffentlichte das Team von Professor Ma Yi die neuesten Forschungsergebnisse und entwarf ein White-Box-Transformer-Modell CRATE, das vollständig durch Mathematik erklärt werden kann und nahe an ViT auf dem realen Datensatz ImageNet erreicht wird -1K Leistung.
Code-Link: https://github.com/Ma-Lab-Berkeley/CRATE
Papier-Link: https://arxiv.org/abs/2306.01129
Here In In diesem Artikel glauben die Forscher, dass das Ziel des Repräsentationslernens darin besteht, die Verteilung von Daten (z. B. Token-Sets) zu komprimieren und zu transformieren, um eine Mischung aus niedrigdimensionalen Gaußschen Verteilungen auf inkohärenten Unterräumen zu unterstützen Sie wird anhand der einheitlichen Zielfunktion der Sparse-Rate-Reduktion gemessen.
Aus dieser Perspektive können beliebte Deep-Network-Modelle wie Transformer natürlich als realisierende iterative Schemata betrachtet werden, um dieses Ziel schrittweise zu optimieren.
Insbesondere zeigen die Ergebnisse, dass der Standard-Transformer-Block aus einer abwechselnden Optimierung komplementärer Teile dieses Ziels abgeleitet werden kann: Der Multi-Head-Selbstaufmerksamkeitsoperator kann als Komprimierung des Tokensatzes durch Minimierung der verlustbehafteten Codierung angesehen werden rate Der Gradientenabstiegsschritt und das anschließende mehrschichtige Perzeptron können als Versuch angesehen werden, die Darstellung des Tokens zu spärlich zu machen.
Diese Entdeckung führte auch zum Entwurf einer Reihe von White-Box-Transformator-ähnlichen tiefen Netzwerkarchitekturen, die zwar vollständig mathematisch interpretierbar sind, experimentelle Ergebnisse zeigen jedoch, dass diese Netzwerke lernen, die Entwurfsziele zu optimieren: Komprimierung und Sparsame Darstellungen großer realer visueller Datensätze wie ImageNet und eine Leistung, die der von hochentwickelten Transformer-Modellen (ViT) nahe kommt.
Turing-Award-Gewinner Yann LeCun stimmte ebenfalls der Arbeit von Professor Ma Yi zu und glaubte, dass Transformer eine Methode ähnlich LISTA (Learned Iterative Shrinkage and Thresholding Algorithm) verwendet, um die Sparse-Komprimierung schrittweise zu optimieren.
Professor Ma Yi erhielt 1995 einen Doppel-Bachelor-Abschluss in Automatisierung und angewandter Mathematik von der Tsinghua-Universität, 1997 einen Master-Abschluss in EECS von der University of California, Berkeley sowie einen Master-Abschluss in Mathematik und einen Doktortitel in EECS im Jahr 2000.
Im Jahr 2018 wechselte Professor Ma Yi an die Fakultät für Elektrotechnik und Informatik der University of California, Berkeley. Im Januar dieses Jahres wechselte er als Dekan des Institute of Data an die University of Hong Kong Seit Kurzem ist er Dekan der Fakultät für Informatik an der Universität Hongkong.
Die Hauptforschungsrichtungen sind 3D-Computervision, niedrigdimensionale Modelle für hochdimensionale Daten, Skalierbarkeitsoptimierung und maschinelles Lernen. Zu den jüngsten Forschungsthemen gehören groß angelegte 3D-geometrische Rekonstruktion und Interaktion sowie die Beziehung zwischen niedrigdimensionalen Modellen und tiefe Netzwerke.
Der Hauptzweck dieses Artikels besteht darin, ein einheitlicheres Framework zu verwenden, um eine Netzwerkstruktur ähnlich wie Transformer zu entwerfen, um mathematische Interpretierbarkeit und eine gute praktische Leistung zu erreichen.
Zu diesem Zweck schlugen die Forscher vor, eine Folge inkrementeller Zuordnungen zu erlernen, um die minimale Komprimierung und die dünnste Darstellung der Eingabedaten (Token-Satz) zu erhalten und so eine einheitliche Zielfunktion zu optimieren, d. h. die Sparsity-Rate zu reduzieren.
Dieses Framework vereint drei scheinbar unterschiedliche Methoden: „Transformer-Modell und Selbstaufmerksamkeit“, „Diffusionsmodell und Rauschunterdrückung“ und „Struktursuchende Modelle und Ratenreduzierung“ und zeigt, dass transformatorähnliche tiefe Netzwerkschichten vorliegen kann auf natürliche Weise aus der Entwicklung iterativer Optimierungsschemata abgeleitet werden, um die Ziele zur Sparsity-Reduktion schrittweise zu optimieren. Die Forscher verwendeten ein idealisiertes Token-Verteilungsmodell, um zu zeigen, dass die relevante Bewertungsfunktion nach der iterativen Entrauschung der dimensionalen Unterraumreihe eine explizite Form annimmt, ähnlich dem Selbstaufmerksamkeitsoperator in Transformer.
Selbstaufmerksamkeit durch Komprimieren von Tokensätzen durch Optimierung der RatenreduzierungDie Forscher leiteten die Multi-Head-Selbstaufmerksamkeitsschicht als einen entfalteten Gradientenabstiegsschritt ab, um den verlustbehafteten Kodierungsratenanteil der Ratenreduzierung zu minimieren. Dies zeigt eine andere Möglichkeit, die Selbstaufmerksamkeitsschicht als komprimierte Token-Darstellung zu interpretieren.
MLP über Iterative Shrinkage-Thresholding Algorithms (ISTA) für Sparse Coding
Die Forscher zeigten, dass ein mehrschichtiges Perzeptron, das einer mehrköpfigen Selbstaufmerksamkeitsschicht in einem Transformer-Block folgt, interpretiert werden kann als ( und Kann durch eine Schicht ersetzt werden, die den Zielrest zur Reduzierung der Sparsity-Rate schrittweise optimiert, indem eine spärliche Codierung für die Token-Repräsentation erstellt wird.CRATE
Basierend auf dem obigen Verständnis haben die Forscher eine neue White-Box-Transformator-Architektur CRATE (Coding RAte Reduction TransformEr) erstellt. Die Lernzielfunktion, die Deep-Learning-Architektur und die endgültige erlernte Darstellung können alle mathematisch erklärt werden Jede Schicht führt einen Schritt des alternierenden Minimierungsalgorithmus aus, um das Ziel der Sparsity-Reduktion zu optimieren.
Es ist zu erkennen, dass CRATE in jeder Phase des Baus die einfachste Art des Bauens gewählt hat. Solange der neu gebaute Teil die gleiche konzeptionelle Rolle beibehält, kann er direkt ersetzt und durch einen neuen ersetzt werden White-Box-Architektur.
Experimenteller TeilDie experimentellen Ziele der Forscher bestehen nicht nur darin, mit anderen gut entwickelten Transformern zu konkurrieren, die das Basisdesign verwenden, sondern umfassen auch:
1. Vergleich mit dem, was normalerweise nur am Ende bewertet wird -Endleistung Im Gegensatz zu empirisch entworfenen Black-Box-Netzwerken können White-Box-entworfene Netzwerke in die tiefe Architektur blicken und „überprüfen, ob die Schichten des erlernten Netzwerks tatsächlich ihre Entwurfsziele erfüllen“, d. h. die Ziele schrittweise optimieren.
2. Obwohl die CRATE-Architektur einfach ist, sollten die experimentellen Ergebnisse „das enorme Potenzial dieser Architektur bestätigen“, das heißt, sie kann eine Leistung erzielen, die dem hochentwickelten Transformer-Modell entspricht, bei großen realen Datensätzen und Aufgaben . „Modellarchitektur“ Basis- und CRATE-Large-Datensätze und Optimierung
In diesem Artikel wird hauptsächlich ImageNet-1K als Testplattform betrachtet und der Lion-Optimierer verwendet, um CRATE-Modelle mit unterschiedlichen Modellgrößen zu trainieren.
Die Transfer-Lernleistung von CRATE wurde ebenfalls bewertet: Das auf ImageNet-1K trainierte Modell wurde als vorab trainiertes Modell verwendet und dann für mehrere häufig verwendete Downstream-Datensätze (CIFAR10/100, Oxford Flowers, Oxford-) verwendet. IIT-Pets) Feinabstimmung von CRATE.
Hat die Ebene von CRATE ihre Designziele erreicht?
Mit zunehmendem Schichtindex ist ersichtlich, dass die Komprimierungs- und Sparsifizierungsbedingungen des CRATE-Small-Modells in den meisten Fällen verbessert werden, was auf die Erhöhung des Sparsity-Maßes der letzten Schicht zurückzuführen ist die zusätzliche lineare Ebene zur Klassifizierung.
Die Ergebnisse zeigen, dass CRATE gut zum ursprünglichen Designziel passt: Sobald es gelernt ist, lernt es im Grunde, die Darstellung inkrementell über seine Ebenen hinweg zu komprimieren und auszusparen.
Nach der Messung der Komprimierungs- und Sparsifizierungsterme an CRATE-Modellen anderer Größen und Zwischenmodellkontrollpunkten kann festgestellt werden, dass die experimentellen Ergebnisse immer noch sehr konsistent sind. Modelle mit mehr Schichten neigen dazu, das Ziel effektiver zu optimieren. Überprüfen Sie das vorherige Verständnis der Rolle jeder Ebene.
Leistungsvergleich
Die empirische Leistung des vorgeschlagenen Netzwerks wird untersucht, indem die höchste Genauigkeit auf ImageNet-1K und die Transfer-Lernleistung auf mehreren weit verbreiteten Downstream-Datensätzen gemessen werden.
Da die entworfene Architektur die gemeinsame Nutzung von Parametern sowohl im Aufmerksamkeitsblock (MSSA) als auch im MLP-Block (ISTA) nutzt, sind die Parameter des CRATE-Base-Modells (22,08 Millionen) und ViT-Small (22,05 Millionen) Die Mengen sind ähnlich.
Es ist ersichtlich, dass das im Artikel vorgeschlagene Netzwerk bei ähnlicher Anzahl von Modellparametern eine ähnliche ImageNet-1K- und Transferlernleistung wie ViT erreicht, das Design von CRATE jedoch einfacher und besser interpretierbar ist.
Darüber hinaus kann CRATE weiterhin unter denselben Trainingshyperparametern skalieren, d. h. eine kontinuierliche Verbesserung der Leistung durch Vergrößerung der Modellgröße, während eine direkte Vergrößerung der ViT-Größe auf ImageNet-1K nicht immer zu konsistenten Ergebnissen führt Leistungsverbesserungen.
Das heißt, trotz seiner Einfachheit kann das CRATE-Netzwerk bereits die erforderliche Komprimierung und spärliche Darstellung in großen realen Datensätzen erlernen und bei verschiedenen Aufgaben wie Klassifizierung und Transferlernen bessere Ergebnisse erzielen Leistung technischer Transformer-Netzwerke (z. B. ViT).
Das obige ist der detaillierte Inhalt vonLeCun unterstützt das fünfjährige Meisterwerk von Professor Ma Yi: einen vollständig mathematisch interpretierbaren White-Box-Transformer, dessen Leistung ViT in nichts nachsteht.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!