Heim Technologie-Peripheriegeräte KI Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation

Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation

Sep 09, 2023 pm 10:37 PM
理论 Microsoft Research Asia Wissensdestillation

Neu zum Ausdruck gebracht: Forschungsmotivation


Maskenmodellierung (MIM, MAE) hat sich als sehr effektive selbstüberwachte Trainingsmethode erwiesen. Wie in Abbildung 1 dargestellt, funktioniert MIM jedoch bei größeren Modellen relativ besser. Wenn das Modell sehr klein ist (z. B. ViT-T 5M-Parameter, ein solches Modell ist für die reale Welt sehr wichtig), kann MIM die Wirkung des Modells sogar bis zu einem gewissen Grad reduzieren. Beispielsweise ist der Klassifizierungseffekt von ViT-L, der mit MAE auf ImageNet trainiert wurde, um 3,3 % höher als der des unter normaler Aufsicht trainierten Modells, aber der Klassifizierungseffekt von ViT-T, der mit MAE auf ImageNet trainiert wurde, ist 0,6 % niedriger als der des Modell unter normaler Aufsicht trainiert.

In dieser Arbeit haben wir TinyMIM vorgeschlagen, das eine Destillationsmethode verwendet, um Wissen von großen Modellen auf ViT zu übertragen, während die Struktur unverändert bleibt und die Struktur nicht geändert wird, um andere induktive Verzerrungen einzuführen. Kleines Modell. ?? su /TinyMIM

Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation

Wir haben systematisch die Auswirkungen von Destillationszielen, Datenverbesserung, Regularisierung, Hilfsverlustfunktionen usw. auf die Destillation untersucht. Wenn ausschließlich ImageNet-1K als Trainingsdaten verwendet wird (einschließlich des Lehrermodells, das ebenfalls nur ImageNet-1K-Training verwendet) und ViT-B als Modell verwendet wird, erzielt unsere Methode derzeit die beste Leistung. Wie in der Abbildung gezeigt: Vergleichen Sie unsere Methode (TinyMIM) mit der auf Maskenrekonstruktion basierenden Methode MAE und der überwachten Lernmethode DeiT, die von Grund auf trainiert wurde. Wenn das Modell relativ groß ist, führt MAE zu erheblichen Leistungsverbesserungen. Wenn das Modell jedoch relativ klein ist, ist die Verbesserung begrenzt und kann sogar den endgültigen Effekt des Modells beeinträchtigen. Unsere Methode TinyMIM erzielt erhebliche Verbesserungen über verschiedene Modellgrößen hinweg.


Unsere Beiträge sind wie folgt:
  • 1. Das Destillieren der Beziehung zwischen Token ist effektiver als das Destillieren von Klassen-Token oder Feature-Maps allein. 2) Es ist effizienter, die Mitte zu verwenden Schicht als Ziel für die Destillation.
  • 2. Datenverbesserung und Modellregularisierung (Daten- und Netzwerkregularisierung): 1) Der Effekt der Verwendung maskierter Bilder ist schlechter. 2) Das Schülermodell benötigt einen kleinen Drop-Pfad, das Lehrermodell jedoch nicht.
    3. Hilfsverluste: MIM ist als Hilfsverlustfunktion bedeutungslos.
4. Makrodestillationsstrategie: Wir haben festgestellt, dass die serielle Destillation (ViT-B -> ViT-S -> ViT-T) am besten funktioniert.

2. Methode

Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation





Wir haben die Destillationsziele, Eingabebilder und Destillationszielmodule systematisch untersucht. 2.1 Faktoren, die den Destillationseffekt beeinflussen

Verdammt Wenn i = L, bezieht es sich auf die Eigenschaften der Transformer-Ausgabeschicht. Wenn i

b. Funktionen der Aufmerksamkeitsschicht (Attention) und Funktionen der Feed-Forward-Schicht (FFN)


Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation


Transformer Jeder Block verfügt über eine Aufmerksamkeitsschicht und eine FFN-Schicht und destilliert Verschiedene Ebenen haben unterschiedliche Effekte.

c.QKV-Funktionen


Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation


Diese Funktionen werden zur Berechnung des Aufmerksamkeitsmechanismus verwendet Die direkte Destillation dieser Eigenschaften.

2) Beziehung


Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation


Q, K, V werden zur Berechnung der Aufmerksamkeitskarte verwendet, und die Beziehung zwischen diesen Merkmalen kann auch als Wissensziel verwendet werden Destillation.

3) Eingabe: Maskiert oder nicht

Traditionelle Wissensdestillation besteht darin, das vollständige Bild direkt einzugeben. Unsere Methode besteht darin, das Modellierungsmodell der Destillationsmaske zu untersuchen. Daher untersuchen wir auch, ob maskierte Bilder als Eingaben für die Wissensdestillation geeignet sind. 2.2 Vergleich von Wissensdestillationsmethoden

Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation



wobei sich
auf das Klassentoken des Schülermodells und
auf das Klassentoken des Lehrermodells bezieht.

2) Merkmalsdestillation: Zum Vergleich verweisen wir direkt auf die Merkmalsdestillation [1] Destillation: Wir haben auch The vorgeschlagen Standarddestillationsstrategie in diesem Artikel
Unsere Methode ist auf ImageNet vorab trainiert. 1K, und das Lehrermodell ist ebenfalls auf ImageNet-1K vorab trainiert. Anschließend haben wir unser vorab trainiertes Modell auf nachgelagerte Aufgaben (Klassifizierung, semantische Segmentierung) verfeinert. Die Modellleistung ist wie in der Abbildung dargestellt:



Unsere Methode übertrifft bisherige MAE-basierte Methoden deutlich, insbesondere für kleine Modelle. Insbesondere für das ultrakleine Modell ViT-T erreicht unsere Methode eine Klassifizierungsgenauigkeit von 75,8 %, was einer Verbesserung von 4,2 im Vergleich zum MAE-Basismodell entspricht. Für das kleine Modell ViT-S erreichen wir eine Klassifizierungsgenauigkeit von 83,0 %, was einer Verbesserung von 1,4 gegenüber der bisher besten Methode entspricht. Bei Modellen in Basisgröße übertrifft unsere Methode das MAE-Basismodell und das bisher beste Modell um CAE 4.1 bzw. 2.0.

Gleichzeitig haben wir auch die Robustheit des Modells getestet, wie in der Abbildung gezeigt:

Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation



TinyMIM-B im Vergleich zu MAE-B in ImageNet -A und ImageNet- R verbesserten sich um +6,4 bzw. +4,6. 3.2 Ablationsexperiment Bei der Berechnung der Beziehung Best wird die QK-V-Beziehung sorgfältig destilliert Ergebnisse. 2) Verschiedene Destillationsstrategien Gleiches gilt für Modelle aller Größen.

3) Destillations-Mittelschicht


Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation

Wir haben festgestellt, dass die achtzehnte Destillationsschicht die besten Ergebnisse erzielte.


IV. Fazit

In diesem Artikel haben wir TinyMIM vorgeschlagen, das erste Modell, das es kleinen Modellen erfolgreich ermöglicht, von der Vorschulung zur Mask Reconstruction Modeling (MIM) zu profitieren. Anstatt die Maskenrekonstruktion als Aufgabe zu übernehmen, trainieren wir das kleine Modell vorab, indem wir das kleine Modell trainieren, um die Beziehungen des großen Modells auf eine Weise der Wissensdestillation zu simulieren. Der Erfolg von TinyMIM lässt sich auf eine umfassende Untersuchung verschiedener Faktoren zurückführen, die sich auf das TinyMIM-Vortraining auswirken können, einschließlich Destillationszielen, Destillationseingängen und Zwischenschichten. Durch umfangreiche Experimente kommen wir zu dem Schluss, dass die Relationsdestillation der Feature-Destillation und der Class-Label-Destillation usw. überlegen ist. Wir hoffen, dass unsere Methode mit ihrer Einfachheit und leistungsstarken Leistung eine solide Grundlage für zukünftige Forschungen bieten wird.

Microsoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation[1] Wei, Y., Hu, H., Xie, Z., Zhang, Z., Cao, Y., Bao, J., ... & Guo, B. (2022) . Kontrastives Lernen konkurriert mit maskierter Bildmodellierung durch Feature-Destillation

Das obige ist der detaillierte Inhalt vonMicrosoft Research Asia führt TinyMIM ein: Verbesserung der Leistung kleiner ViT durch Wissensdestillation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? Aug 07, 2024 pm 07:08 PM

Im Jahr 2023 entwickeln sich fast alle Bereiche der KI in beispielloser Geschwindigkeit weiter. Gleichzeitig verschiebt die KI ständig die technologischen Grenzen wichtiger Bereiche wie der verkörperten Intelligenz und des autonomen Fahrens. Wird der Status von Transformer als Mainstream-Architektur großer KI-Modelle durch den multimodalen Trend erschüttert? Warum ist die Erforschung großer Modelle auf Basis der MoE-Architektur (Mixture of Experts) zu einem neuen Trend in der Branche geworden? Können Large Vision Models (LVM) ein neuer Durchbruch im allgemeinen Sehvermögen sein? ...Aus dem PRO-Mitglieder-Newsletter 2023 dieser Website, der in den letzten sechs Monaten veröffentlicht wurde, haben wir 10 spezielle Interpretationen ausgewählt, die eine detaillierte Analyse der technologischen Trends und industriellen Veränderungen in den oben genannten Bereichen bieten, um Ihnen dabei zu helfen, Ihre Ziele in der Zukunft zu erreichen Jahr vorbereitet sein. Diese Interpretation stammt aus Week50 2023

Die Genauigkeitsrate erreicht 60,8 %. Das auf Transformer basierende Modell zur Vorhersage der chemischen Retrosynthese wurde in der Unterzeitschrift „Nature' veröffentlicht Die Genauigkeitsrate erreicht 60,8 %. Das auf Transformer basierende Modell zur Vorhersage der chemischen Retrosynthese wurde in der Unterzeitschrift „Nature' veröffentlicht Aug 06, 2024 pm 07:34 PM

Herausgeber | KX-Retrosynthese ist eine entscheidende Aufgabe in der Arzneimittelforschung und organischen Synthese, und KI wird zunehmend eingesetzt, um den Prozess zu beschleunigen. Bestehende KI-Methoden weisen eine unbefriedigende Leistung und eine begrenzte Vielfalt auf. In der Praxis verursachen chemische Reaktionen häufig lokale molekulare Veränderungen mit erheblichen Überschneidungen zwischen Reaktanten und Produkten. Davon inspiriert schlug das Team von Hou Tingjun an der Zhejiang-Universität vor, die einstufige retrosynthetische Vorhersage als eine Aufgabe zur Bearbeitung molekularer Ketten neu zu definieren und dabei die Zielmolekülkette iterativ zu verfeinern, um Vorläuferverbindungen zu erzeugen. Außerdem wird ein bearbeitungsbasiertes retrosynthetisches Modell EditRetro vorgeschlagen, mit dem qualitativ hochwertige und vielfältige Vorhersagen erzielt werden können. Umfangreiche Experimente zeigen, dass das Modell beim Standard-Benchmark-Datensatz USPTO-50 K eine hervorragende Leistung mit einer Top-1-Genauigkeit von 60,8 % erzielt.

See all articles