Es ist bekannt, dass große Sprachmodelle (LLM) durch kontextuelles Lernen aus einer kleinen Anzahl von Beispielen lernen können, ohne dass eine Feinabstimmung des Modells erforderlich ist. Derzeit kann dieses kontextuelle Lernphänomen nur in großen Modellen beobachtet werden. Beispielsweise haben große Modelle wie GPT-4, Llama usw. in vielen Bereichen eine hervorragende Leistung gezeigt, aber aufgrund von Ressourcenbeschränkungen oder hohen Echtzeitanforderungen können große Modelle in vielen Szenarien nicht verwendet werden
Dann sind reguläre- große Modelle Verfügen Sie über diese Fähigkeit? Um die kontextuellen Lernfähigkeiten kleiner Modelle zu untersuchen, führten Forschungsteams von Byte und der East China Normal University Untersuchungen zu Texterkennungsaufgaben in Szenen durch.
Gegenwärtig steht die Szenentexterkennung in tatsächlichen Anwendungsszenarien vor einer Vielzahl von Herausforderungen: unterschiedliche Szenen, Textlayout, Verformung, Lichtänderungen, verschwommene Handschrift, Schriftartenvielfalt usw. Daher ist es schwierig, einer Maschine das beizubringen kann alle Szenarien bewältigen.
Eine direkte Möglichkeit, dieses Problem zu lösen, besteht darin, entsprechende Daten zu sammeln und das Modell in bestimmten Szenarien zu optimieren. Dieser Prozess erfordert jedoch eine rechenintensive Neuschulung des Modells und erfordert das Speichern mehrerer Modellgewichte zur Anpassung an verschiedene Szenarien. Wenn das Texterkennungsmodell über Kontextlernfunktionen verfügen kann, benötigt es bei neuen Szenen nur eine kleine Menge annotierter Daten als Hinweise, um seine Leistung in neuen Szenen zu verbessern und so die oben genannten Probleme zu lösen. Die Texterkennung in Szenen ist jedoch eine ressourcenempfindliche Aufgabe, und die Verwendung eines großen Modells als Texterkennung verbraucht viele Ressourcen. Durch vorläufige experimentelle Beobachtungen stellten Forscher fest, dass herkömmliche Trainingsmethoden für große Modelle nicht für Texterkennungsaufgaben in Szenen geeignet sind
Um dieses Problem zu lösen, schlug das Forschungsteam von ByteDance und der East China Normal University einen sich selbst entwickelnden Texterkenner vor. E2STR (Ego-Evolving Scene Text Recognizer). Dabei handelt es sich um einen Texterkenner in normaler Größe, der über Kontextlernfunktionen verfügt und sich ohne Feinabstimmung schnell an verschiedene Texterkennungsszenarien anpassen lässt .pdf
E2STR ist mit einem kontextbezogenen Trainings- und Kontextbegründungsmodus ausgestattet, der nicht nur das SOTA-Niveau bei herkömmlichen Datensätzen erreicht, sondern auch ein einziges Modell verwenden kann, um die Erkennungsleistung in verschiedenen Szenarien zu verbessern und eine schnelle Anpassung zu erreichen neue Szenarien, die nach Feinabstimmung sogar die Erkennungsleistung spezialisierter Modelle übertreffen. E2STR zeigt, dass Modelle normaler Größe ausreichen, um effektive Kontextlernfähigkeiten bei Texterkennungsaufgaben zu erreichen.
Method
in Abbildung 1, das Training und der Inferenzprozess von E2STR sind gezeigt. Framework Der Zweck des Trainings des visuellen Encoders und des Sprachdecoders besteht darin, Texterkennungsfähigkeiten zu erhalten:
2. Kontexttraining
Kontexttrainingsphase E2STR wird gemäß dem vorgeschlagenen Kontexttrainingsparadigma weiter trainiert im Artikel. In dieser Phase lernt E2STR, die Zusammenhänge zwischen verschiedenen Stichproben zu verstehen, um aus kontextuellen Hinweisen Schlussfolgerungen zu ziehen.
Wie in Abbildung 2 gezeigt, schlägt dieser Artikel die ST-Strategie vor, die Textdaten der Szene zufällig zu segmentieren und zu transformieren, um einen Satz von „Unterabtastungen“ zu generieren. Die Teilproben sind sowohl visuell als auch sprachlich untrennbar miteinander verbunden. Diese intern verwandten Proben werden zu einer Sequenz zusammengefügt, und das Modell lernt Kontextwissen aus diesen semantisch reichhaltigen Sequenzen und erhält dadurch die Fähigkeit, Kontext zu lernen. In dieser Phase wird auch das autoregressive Framework zum Training verwendet:
Der Inhalt, der neu geschrieben werden muss, ist: 3. Kontextuelles Denken Umgeschriebener Inhalt: 3. Argumentation basierend auf dem Kontext
Für eine Testprobe wählt das Framework N Proben aus dem kontextuellen Cue-Pool aus, die die höchste Ähnlichkeit mit der Testprobe im visuellen latenten Raum aufweisen. Insbesondere berechnet dieser Artikel die Bildeinbettung I durch Mittelung des Poolings auf der visuellen Token-Sequenz. Anschließend werden die obersten N Stichproben mit der höchsten Kosinusähnlichkeit zwischen Bildeinbettungen und I aus dem Kontextpool ausgewählt und bilden so kontextbezogene Hinweise.
Nachdem die kontextuellen Hinweise und Testbeispiele zusammengefügt und in das Modell eingespeist wurden, lernt E2STR ohne Training neues Wissen aus den kontextuellen Hinweisen und verbessert so die Erkennungsgenauigkeit der Testbeispiele. Es ist wichtig zu beachten, dass der Kontext-Cue-Pool nur die vom visuellen Encoder ausgegebenen Token behält, was den Auswahlprozess für Kontext-Cues sehr effizient macht. Da außerdem der kontextbezogene Hinweispool klein ist und E2STR ohne Training Inferenzen durchführen kann, wird auch der zusätzliche Rechenaufwand minimiert -Domänenszenenerkennung und schwierige Probenkorrektur
Wählen Sie zufällig einige Proben (1000, 0,025 % der Anzahl der Proben im Trainingssatz) aus, um einen zu bilden Kontext-Prompt-Pool: Der Test wurde mit 12 gängigen Texterkennungstestsätzen für Szenen durchgeführt. Die Ergebnisse lauten wie folgt:
Es kann festgestellt werden, dass E2STR die Erkennungsleistung gegenüber dem herkömmlichen Datensatz immer noch verbessert hat nahezu gesättigt und übertrifft die Leistung des SOTA-Modells.
Der Inhalt, der neu geschrieben werden muss, ist: 2. Domänenübergreifendes Szenario
Im domänenübergreifenden Szenario stellt jeder Testsatz nur 100 domäneninterne Trainingsbeispiele bereit. Die Vergleichsergebnisse zwischen keinem Training und Feinabstimmung sind wie folgt: E2STR übertrifft sogar die Feinabstimmungsergebnisse der SOTA-Methode.
Der Inhalt, der neu geschrieben werden muss, ist: 3. Schwierige Proben ändern
Die Forscher sammelten eine Reihe schwieriger Proben und lieferten 10–20 % Anmerkungen für diese Proben im Vergleich zu E2STR Die Ergebnisse der Kontext-Lernmethode ohne Training und der Feinabstimmungs-Lernmethode der SOTA-Methode sind wie folgt:
Im Vergleich zur Feinabstimmungsmethode reduziert E2STR-ICL die Fehlerrate schwieriger Proben erheblich
Zukunftsausblick
E2STR beweist, dass kleine Modelle mithilfe geeigneter Trainings- und Inferenzstrategien auch über kontextbezogene Lernfähigkeiten ähnlich wie LLM verfügen können. Bei einigen Aufgaben mit hohen Echtzeitanforderungen können auch kleine Modelle verwendet werden, um sich schnell an neue Szenarien anzupassen. Noch wichtiger ist, dass diese Methode der Verwendung eines einzigen Modells zur schnellen Anpassung an neue Szenarien dem Aufbau eines einheitlichen und effizienten kleinen Modells einen Schritt näher kommt.
Das obige ist der detaillierte Inhalt vonDer umformulierte Titel lautet: ByteDance und East China Normal University Cooperation: Exploring the Contextual Learning Capabilities of Small Models. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!