TRIBE erreicht Robustheit bei der Domänenanpassung und erreicht SOTAs AAAII 2024 in mehreren realen Szenarien.-KI-php.cn

Heim

Technologie-Peripheriegeräte

TRIBE erreicht Robustheit bei der Domänenanpassung und erreicht SOTAs AAAII 2024 in mehreren realen Szenarien.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 01, 2024 am 10:38 AM

工程

Der Zweck der Testzeitanpassung besteht darin, das Quelldomänenmodell in der Inferenzphase an die Testdaten anzupassen, und hat hervorragende Ergebnisse bei der Anpassung an unbekannte Bildschadensfelder erzielt. Bei vielen aktuellen Methoden fehlt jedoch die Berücksichtigung des Testdatenflusses in realen Szenarien, zum Beispiel:

Der Testdatenfluss sollte eine zeitlich variierende Verteilung sein (und nicht eine feste Verteilung bei der herkömmlichen Domänenanpassung).
Der Testdatenstrom weist möglicherweise eine lokale Klassenkorrelation auf (anstelle einer vollständig unabhängigen und identisch verteilten Stichprobe)
Der Testdatenstrom zeigt noch lange Zeit ein globales Klassenungleichgewicht

Vor Kurzem , South China University of Technology, Die Teams von A*STAR und CUHK-Shenzhen haben durch eine große Anzahl von Experimenten bewiesen, dass das Testen von Datenflüssen in diesen realen Szenarien große Herausforderungen für bestehende Methoden mit sich bringen wird. Das Team geht davon aus, dass das Scheitern moderner Methoden zunächst auf die wahllose Anpassung der Normalisierungsschicht auf der Grundlage unausgeglichener Testdaten zurückzuführen ist.

Zu diesem Zweck schlug das Forschungsteam eine innovative Balanced BatchNorm-Schicht vor, um die herkömmliche Batch-Normalisierungsschicht in der Inferenzphase zu ersetzen. Gleichzeitig stellten sie fest, dass das ausschließliche Verlassen auf Selbsttraining (ST) zum Lernen in unbekannten Testdatenströmen leicht zu einer Überanpassung (Ungleichgewicht der Pseudo-Label-Kategorie, Zieldomäne ist keine feste Domäne) führen kann, was zu schlechten Ergebnissen führt Leistung in einem sich verändernden Bereich.

Daher empfiehlt das Team, Modellaktualisierungen durch verankerten Verlust (Anchored Loss) zu regulieren, um dadurch das Selbsttraining unter kontinuierlicher Domänenübertragung zu verbessern und dazu beizutragen, die Robustheit des Modells deutlich zu verbessern. Am Ende erreichte das Modell TRIBE unter vier Datensätzen und mehreren realen Testdatenstromeinstellungen stabil die Leistung auf dem neuesten Stand und übertraf bestehende fortschrittliche Methoden deutlich. Forschungspapier wurde von AAAI 2024 angenommen.

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Papier-Link: https://arxiv.org/abs/2309.14949

Code-Link: https://github.com/Gorilla-Lab-SCUT/TRIBE

Einführung

Tiefe Der Erfolg neuronaler Netze hängt von der Verallgemeinerung des trainierten Modells auf i.i.d.-Annahmen im Testbereich ab. In praktischen Anwendungen ist jedoch die Robustheit von Testdaten außerhalb der Verteilung, wie z. B. Sehschäden durch unterschiedliche Lichtverhältnisse oder Unwetter, besorgniserregend. Aktuelle Untersuchungen zeigen, dass dieser Datenverlust die Leistung vorab trainierter Modelle ernsthaft beeinträchtigen kann. Wichtig ist, dass die Beschädigung (Verteilung) von Testdaten vor der Bereitstellung oft unbekannt und manchmal unvorhersehbar ist.

Daher ist die Anpassung des vorab trainierten Modells zur Anpassung an die Testdatenverteilung in der Inferenzphase ein wertvolles neues Thema, nämlich die Testzeitdomänenanpassung (TTA). Bisher wurde TTA hauptsächlich durch Verteilungsausrichtung (TTAC++, TTT++), selbstüberwachtes Training (AdaContrast) und Selbsttraining (Conjugate PL) implementiert, was zu erheblichen und robusten Verbesserungen bei einer Vielzahl von Testdaten zu visuellen Schäden geführt hat.

Bestehende TTA-Methoden (Test-Time Domain Adaptation) basieren normalerweise auf einigen strengen Testdatenannahmen, wie z. B. einer stabilen Klassenverteilung, Stichproben, die unabhängigen und identisch verteilten Stichproben folgen, und einem festen Domänenversatz. Diese Annahmen haben viele Forscher dazu inspiriert, reale Testdatenflüsse wie CoTTA, NOTE, SAR und RoTTA zu untersuchen.

In jüngster Zeit konzentriert sich die reale TTA-Forschung wie SAR (ICLR 2023) und RoTTA (CVPR 2023) hauptsächlich auf die Herausforderungen, die sich aus dem lokalen Klassenungleichgewicht und der kontinuierlichen Domänenverschiebung zu TTA ergeben. Ein lokales Klassenungleichgewicht resultiert in der Regel aus der Tatsache, dass die Testdaten nicht unabhängig voneinander abgetastet und nicht identisch verteilt werden. Eine direkte wahllose Domänenanpassung führt zu verzerrten Verteilungsschätzungen.

Jüngste Forschungsergebnisse haben exponentiell aktualisierte Batch-normalisierte Statistiken (RoTTA) oder diskriminativ aktualisierte Batch-normalisierte Statistiken auf Instanzebene (NOTE) vorgeschlagen, um diese Herausforderung zu lösen. Das Forschungsziel besteht darin, die Herausforderung des lokalen Klassenungleichgewichts zu überwinden, da die Gesamtverteilung von Testdaten stark unausgewogen sein kann und sich die Klassenverteilung im Laufe der Zeit auch ändern kann. Ein Diagramm eines anspruchsvolleren Szenarios ist in Abbildung 1 unten zu sehen.

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Da die Klassenprävalenz in den Testdaten vor der Inferenzphase unbekannt ist und das Modell durch blinde Testzeitanpassungen möglicherweise in Richtung der Mehrheitsklasse verzerrt ist, werden bestehende TTA-Methoden dadurch unwirksam. Basierend auf empirischen Beobachtungen wird dieses Problem besonders deutlich bei Methoden, die auf dem aktuellen Datenstapel basieren, um globale Statistiken zur Aktualisierung der Normalisierungsschicht zu schätzen (BN, PL, TENT, CoTTA usw.).

Dies ist hauptsächlich auf Folgendes zurückzuführen:

1 Der aktuelle Datenstapel wird durch ein lokales Klassenungleichgewicht beeinflusst, was zu einer verzerrten Gesamtverteilungsschätzung führt

2. Geschätzt aus den gesamten Testdaten mit globalem Klassenungleichgewicht Ohne eine einzige globale Verteilung kann die globale Verteilung leicht auf die Mehrheitsklasse ausgerichtet sein, was zu internen Kovariatenverschiebungen führt.

Um eine voreingenommene Batch-Normalisierung (BN) zu vermeiden, schlug das Team eine ausgeglichene Batch-Normalisierungsschicht (Balanced Batch Normalization Layer) vor, die die Verteilung jeder einzelnen Kategorie modelliert und die globale Verteilung aus der Klassenverteilung extrahiert. Die Balanced-Batch-Normalisierungsschicht ermöglicht das Erhalten klassenbalancierter Schätzungen der Verteilung unter lokal und global klassenunbalancierten Testdatenströmen.

Bei realen Testdaten kommt es im Laufe der Zeit häufig zu Domänenverschiebungen, beispielsweise durch allmähliche Änderungen der Licht-/Wetterbedingungen. Dies stellt eine weitere Herausforderung für bestehende TTA-Methoden dar. Das TTA-Modell kann beim Wechsel von Domäne A zu Domäne B aufgrund einer übermäßigen Anpassung an Domäne A inkonsistent werden.

Um eine Überanpassung an einen bestimmten kurzfristigen Bereich zu mildern, stellt CoTTA Parameter nach dem Zufallsprinzip wieder her und EATA verwendet Fisher-Informationen, um die Parameter zu regulieren. Dennoch gehen diese Methoden immer noch nicht explizit auf die aufkommenden Herausforderungen im Bereich Testdaten ein.

In diesem Artikel wird ein Ankernetzwerk (Anchor Network) vorgestellt, um ein Selbsttrainingsmodell mit drei Netzwerken (Tri-Net Self-Training) zu bilden, das auf der Selbsttrainingsarchitektur mit zwei Zweigen basiert. Das Ankernetzwerk ist ein eingefrorenes Quellmodell, ermöglicht jedoch die Optimierung von Statistiken anstelle von Parametern in der Batch-Normalisierungsschicht über Testproben. Und es wird ein Ankerverlust vorgeschlagen, um die Ausgabe des Ankernetzwerks zu nutzen, um die Ausgabe des Lehrermodells zu regulieren, um zu verhindern, dass sich das Netzwerk übermäßig an die lokale Verteilung anpasst.

Das endgültige Modell kombiniert das Drei-Netz-Selbsttrainingsmodell und die ausgeglichene Batch-Normalisierungsschicht (TRI-Net-Selbsttraining mit Balanced-Normalisierung, TRIBE), um eine konsistent überlegene Leistung in einem breiteren Bereich einstellbarer Lernraten zu zeigen. Es zeigt erhebliche Leistungsverbesserungen bei vier Datensätzen und mehreren realen Datenströmen und demonstriert die einzigartige Stabilität und Robustheit.

Einführung in die Methode

Die Papiermethode ist in drei Teile unterteilt:

Einführung in das TTA-Protokoll in der Praxis;
Ausgewogene Batch-Normalisierung;
Drei Netzwerke Automatisch Trainieren Sie das Modell.

TTA-Protokoll in der realen Welt

Der Autor hat ein mathematisches Wahrscheinlichkeitsmodell übernommen, um Datenflüsse mit lokalem Klassenungleichgewicht und globalem Klassenungleichgewicht in der realen Welt und in der Domäne zu testen Die zeitliche Verteilung wurde modelliert. Wie in Abbildung 2 unten dargestellt.

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Ausgewogene Batch-Normalisierung

Um die geschätzte Verzerrung zu korrigieren, die durch unausgeglichene Testdaten in der BN-Statistik entsteht, schlägt der Autor eine ausgewogene Batch-Normalisierungsschicht für jede semantische Klasse vor, die ein Statistikpaar verwaltet jeweils dargestellt als:

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Um die Kategoriestatistiken zu aktualisieren, wendet der Autor eine effiziente iterative Aktualisierungsmethode mit Hilfe der Pseudo-Label-Vorhersage an, wie unten gezeigt:

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Die Stichprobenpunkte jeder Datenkategorie werden durch Pseudobezeichnungen separat gezählt, und die Gesamtverteilungsstatistik unter Kategoriebalance wird durch die folgende Formel neu ermittelt, um den erlernten Merkmalsraum mit kategorieausgeglichenen Quelldaten abzugleichen . AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

In einigen Sonderfällen stellte der Autor fest, dass bei einer großen Anzahl von Kategorien AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

oder einer geringen Pseudo-Label-Genauigkeit (Genauigkeit

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Durch weitere Analyse und Beobachtung stellte der Autor fest, dass bei γ = 1 die gesamte Aktualisierung erfolgt Die Strategie degeneriert zu RoTTA. Die Update-Strategie von RobustBN ist bei γ = 0 eine rein kategorieunabhängige Update-Strategie. Wenn γ einen Wert von 0 bis 1 annimmt, kann sie daher an verschiedene Situationen angepasst werden.

Drei-Netzwerk-Selbsttrainingsmodell

Basierend auf dem bestehenden Schüler-Lehrer-Modell fügte der Autor einen Ankernetzwerkzweig hinzu und führte einen Ankerverlust ein, um das Lehrernetzwerk auf die vorhergesagte Verteilung zu beschränken. Dieses Design ist von TTAC++ inspiriert. TTAC++ weist darauf hin, dass es leicht zu einer Anhäufung von Bestätigungsverzerrungen kommt, wenn man sich ausschließlich auf das Selbsttraining des Testdatenstroms verlässt. Dieses Problem ist beim realen Testdatenstrom in diesem Artikel schwerwiegender. TTAC++ verwendet statistische Informationen, die von der Quelldomäne gesammelt wurden, um die Regularisierung der Domänenausrichtung zu implementieren, aber für die Einstellung „Vollständig TTA“ sind diese Quelldomäneninformationen nicht sammelbar.

Gleichzeitig erlangte der Autor eine weitere Erkenntnis. Der Erfolg des unbeaufsichtigten Domain-Alignments basiert auf der Annahme, dass die beiden Domain-Verteilungen eine relativ hohe Überlappungsrate aufweisen. Daher hat der Autor nur das eingefrorene Quelldomänenmodell der BN-Statistik angepasst, um das Lehrermodell zu regulieren und zu vermeiden, dass die vorhergesagte Verteilung des Lehrermodells zu weit von der vorhergesagten Verteilung des Quellmodells abweicht (dies zerstörte die frühere Erfahrung mit einer hohen Koinzidenzrate). zwischen den beiden Verteilungen) Beobachtung). Eine Vielzahl von Experimenten beweisen, dass die Entdeckungen und Innovationen in diesem Artikel richtig und belastbar sind. Das Folgende ist der Ausdruck des Verankerungsverlusts:

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Die folgende Abbildung zeigt das Rahmendiagramm des TRIBE-Netzwerks:

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Experimenteller Teil

Der Autor des Papiers hat 4 Daten verwendet Die auf TRIBE eingestellten Werte werden mithilfe von zwei realen TTA-Protokollen als Benchmarks überprüft. Zwei reale TTA-Protokolle sind GLI-TTA-F, bei dem die globale Klassenverteilung festgelegt ist, und GLI-TTA-V, bei dem die globale Klassenverteilung nicht festgelegt ist.

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

Die obige Tabelle zeigt die Leistung der beiden Protokolle im CIFAR10-C-Datensatz unter verschiedenen Ungleichgewichtskoeffizienten. Die folgenden Schlussfolgerungen können gezogen werden:

1 Nur LAME, TTAC, NOTE, RoTTA und TRIBE Das Papier übertrifft die TEST-Werte. Die Basislinie zeigt die Notwendigkeit einer robusteren TTA-Methode unter realen Testabläufen.

2. Das globale Klassenungleichgewicht hat die bestehenden TTA-Methoden vor große Herausforderungen gestellt. Beispielsweise zeigte die vorherige SOTA-Methode RoTTA eine Fehlerrate von 25,20 %, wenn I.F.=1 200. 32,45 %, im Vergleich dazu kann TRIBE stabil eine relativ bessere Leistung vorweisen.

3. Die Konsistenz von TRIBE hat einen absoluten Vorteil und übertrifft alle vorherigen Methoden und übertrifft die vorherige SOTA (TTAC) um etwa 7 % bei der Einstellung des globalen Klassengleichgewichts (I.F. = 1) und darüber hinaus schwierig Unter der Einstellung eines globalen Klassenungleichgewichts (I.F.=200) wurde eine Leistungsverbesserung von etwa 13 % erreicht.

4. Von I.F.=10 bis I.F.=200 zeigen andere TTA-Methoden einen Trend des Leistungsabfalls mit zunehmendem Ungleichgewichtsgrad. TRIBE kann eine relativ stabile Leistung aufrechterhalten. Dies wird auf die Einführung einer ausgewogenen Batch-Normalisierungsschicht zurückgeführt, die schwere Klassenungleichgewichte und Verankerungsverluste besser berücksichtigt und so eine Überanpassung über verschiedene Domänen hinweg vermeidet.

Weitere Ergebnisse des Datensatzes finden Sie im Originalpapier.

Darüber hinaus zeigt Tabelle 4 die detaillierte modulare Ablation mit den folgenden Beobachtungsschlussfolgerungen:

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

1 Ersetzen Sie BN nur durch die ausgeglichene Chargennormalisierungsschicht (Balanced BN), ohne für einen Modellparameter zu aktualisieren. Nur die Aktualisierung der BN-Statistiken durch Forward kann zu einer Leistungsverbesserung von 10,24 % (44,62 –> 34,28) führen und die Fehlerrate von Robust BN von 41,97 % übertreffen.

2. Anchored Loss kombiniert mit Self-Training, ob unter der vorherigen BN-Struktur oder der neuesten Balanced BN-Struktur, hat die Leistung verbessert und den Regularisierungseffekt des EMA-Modells übertroffen.

Der Rest dieses Artikels und der 9-seitige Anhang präsentieren schließlich 17 detaillierte tabellarische Ergebnisse, die die Stabilität, Robustheit und Überlegenheit von TRIBE aus mehreren Dimensionen demonstrieren. Der Anhang enthält auch eine detailliertere theoretische Ableitung und Erläuterung der Balanced-Batch-Normalisierungsschicht.

Zusammenfassung und Ausblick

Um viele reale Herausforderungen wie Nicht-i.i.d.-Testdatenfluss, globales Klassenungleichgewicht und kontinuierliche Domänenübertragung zu bewältigen, untersuchte das Forschungsteam eingehend, wie um das Testen der Robustheit von Zeitbereichsanpassungsalgorithmen zu verbessern. Um sich an die unausgeglichenen Testdaten anzupassen, schlug der Autor eine Balanced Batchnorm-Schicht vor, um eine unvoreingenommene Schätzung der Statistiken zu erreichen, und schlug dann ein Netzwerk vor, das ein Schülernetzwerk, ein Lehrernetzwerk und eine dreischichtige Netzwerkstruktur zur Standardisierung umfasst TTA basiert auf Selbsttraining.

Da dieser Artikel jedoch noch Mängel und Verbesserungspotenzial aufweist, ist der Grad der Anpassung an andere Aufgaben und Transformer-basierte Modelle noch unbekannt. Diese Probleme verdienen in der Folgearbeit weitere Forschung und Untersuchung.

Das obige ist der detaillierte Inhalt vonTRIBE erreicht Robustheit bei der Domänenanpassung und erreicht SOTAs AAAII 2024 in mehreren realen Szenarien.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7536

CakePHP-Tutorial

1379

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Axiomatisches Training ermöglicht es LLM, kausales Denken zu erlernen: Das 67-Millionen-Parameter-Modell ist vergleichbar mit der Billionen-Parameter-Ebene GPT-4 Jul 17, 2024 am 10:14 AM

Zeigen Sie LLM die Kausalkette und es lernt die Axiome. KI hilft Mathematikern und Wissenschaftlern bereits bei der Forschung. Beispielsweise hat der berühmte Mathematiker Terence Tao wiederholt seine Forschungs- und Forschungserfahrungen mit Hilfe von KI-Tools wie GPT geteilt. Damit KI in diesen Bereichen konkurrenzfähig sein kann, sind starke und zuverlässige Fähigkeiten zum kausalen Denken unerlässlich. Die in diesem Artikel vorgestellte Forschung ergab, dass ein Transformer-Modell, das auf die Demonstration des kausalen Transitivitätsaxioms für kleine Graphen trainiert wurde, auf das Transitivitätsaxiom für große Graphen verallgemeinern kann. Mit anderen Worten: Wenn der Transformer lernt, einfache kausale Überlegungen anzustellen, kann er für komplexere kausale Überlegungen verwendet werden. Der vom Team vorgeschlagene axiomatische Trainingsrahmen ist ein neues Paradigma zum Erlernen des kausalen Denkens auf der Grundlage passiver Daten, nur mit Demonstrationen

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles