Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16-KI-php.cn

Heim

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 29, 2024 am 09:29 AM

工程字节跳动

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Da Deep Learning große Sprachmodelle immer beliebter werden, werden große Sprachmodelle immer größer, wodurch auch ihre Inferenzkosten steigen. Die Modellquantifizierung ist zu einem beliebten Forschungsthema geworden.

Kürzlich hat ByteDance eine neue Quantifizierungsidee auf den Markt gebracht, die das traditionelle Quantifizierungsparadigma aufgibt und Quantifizierungsaufgaben aus der Perspektive der mathematischen Optimierung modelliert. Der Artikel ist auf arXiv veröffentlicht und der Code ist Open Source. Alle Ergebnisse im Artikel können mit einem Klick reproduziert werden. Diese Quantifizierungsidee basiert auf der mathematischen Optimierung, der Modellierung der Quantifizierungsaufgabe aus der Perspektive der mathematischen Optimierung und der Suche nach der optimalen Lösung durch Maximierung der Zielfunktion oder Minimierung der Verlustfunktion. Diese Idee hat in Experimenten gute Ergebnisse erzielt und zufriedenstellende Ergebnisse erzielt. 🔜 /github.com/NVIDIA/TensorRT-LLM/pull/1568

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

Die rasante Entwicklung der Großtechnologie hat die Kosten für Inferenz immer höher gemacht. Die Modellquantifizierung als technische Lösung zur Reduzierung der Inferenzkosten hat immer mehr Aufmerksamkeit und Forschung erhalten. Unter dem traditionellen Quantisierungsparadigma nimmt die Genauigkeit des Modells jedoch bei sehr niedrigen Bits schnell ab. Auf dieser Grundlage schlugen die Autoren eine neue Quantifizierungsidee vor, bei der die Modellparameter in einen ganzzahligen Teil und einen Gleitkommateil entkoppelt und die Quantifizierungsaufgabe aus der Perspektive der mathematischen Optimierung modelliert werden, sodass das Modell weiterhin aufrechterhalten werden kann Höhere Präzision. Der Vorteil liegt auf der Hand. Wir müssen uns nicht mehr auf quantisierungsspezifische Fragen konzentrieren, wie z. B. den Umgang mit sensiblen Kanälen, den Umgang mit Ausreißern usw. Stattdessen müssen wir das Quantifizierungsproblem nur mathematisch modellieren und a finden Geeignete Optimierungszielfunktion und dann diese Funktion lösen.
2. Traditionelle Quantisierung
Traditionell lautet unsere Quantifizierungsidee für ein Modell:

wobei die Gleitkommagewichte des Modells vor der Quantisierung sind; s und z sind lineare Transformationskoeffizienten, die Skalierung und darstellen Nullpunkt; α und β sind die Ober- und Untergrenzen des ganzzahligen Darstellungsbereichs. Für die int4-Quantisierung kann beispielsweise α = -8 verwendet werden, β = 7 stellt die Rundungsfunktion dar, die im Allgemeinen auf den nächsten Wert gerundet wird ganze Zahl.

In Bezug auf die Werte von s und z können wir im Allgemeinen für die asymmetrische Quantisierung Folgendes annehmen:

Auf diese Weise werden in

verteilte Gleitkommagewichte linear auf den Intervallbereich von

abgebildet.

Bei der inversen Quantisierung wird im Allgemeinen die folgende Formel verwendet: Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 Bei diesem traditionellen Quantisierungsschema müssen wir auf viele detaillierte Aspekte achten, die nur für die Quantisierung gelten. Für empfindliche Kanäle verfügen wir beispielsweise über Methoden zur Verarbeitung empfindlicher Kanäle ; Für Ausreißer haben wir eine Ausreißerverarbeitungsmethode. Dieses Verarbeitungsparadigma der Behandlung von Kopfschmerzen und der Behandlung von Kopfschmerzen ist in komplexen und sich ständig ändernden Geschäftsszenarien nur schwer zu bewältigen. Bytedance-Forscher versuchen, diese Probleme zu abstrahieren und Quantifizierungsprobleme aus einer Makroperspektive zu betrachten. Wir müssen nur eine abstrakte Optimierungszielfunktion erstellen und diese Zielfunktion dann lösen.

3.depairQ

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

Wenn wir die Rolle der Gleichungen (1) bis (3) bei der Quantifizierung betrachten und unsere Denkweise ändern, werden wir feststellen, dass wir die Gleichungen (1) und (2) eigentlich nicht kennen müssen. Nachdem wir ein großes Modell quantifiziert und es den Studenten der nachgeschalteten Motoren übergeben haben, müssen wir nur noch Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 und (s,z) in Gleichung (3) kennen. Mit anderen Worten: (s,z) in Gleichung (3) kann als Koeffizient einer gewöhnlichen affinen Transformation betrachtet werden, und es besteht keine Notwendigkeit, seine Bedeutung in Gleichung (2) beizubehalten. Der affine Transformationskoeffizient kann durch mathematische Optimierungsverfahren ermittelt werden.

Wenn wir uns weiter mit (3) befassen, können wir die Parameter eines großen Modells in den ganzzahligen Teil Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 und den Gleitkommateil (s,z) entkoppeln. Nach einer solchen Entkopplung kann der Prozess der Modellquantisierung als ein Prozess der Lösung des ganzzahligen Teils Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 und des Gleitkommateils (s,z) des Modells betrachtet werden. Alternativ können wir die Lösung optimieren. Hierzu müssen die Optimierungszielfunktion und ihre Randbedingungen bestimmt werden.

Für eine lineare Schicht können wir die folgende Optimierungszielfunktion konstruieren:

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

wobei Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 die Eingabe der Schicht ist, eine symmetrische Matrix ist (wenn die Spalten von X nicht alle Null sind, dann ist H eine positiv definite symmetrische Matrix).

Im Allgemeinen können wir zur Verbesserung der Quantisierungsgenauigkeit die Quantisierung pro Kanal für die Gewichte des Modells verwenden. Bei der Quantisierung pro Kanal wird bei der Optimierung von Gleichung (4) jede Spalte von Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 unabhängig optimiert. Wir müssen uns also nur auf eine der Spalten konzentrieren.

An dieser Stelle kann das Optimierungsziel wie folgt geschrieben werden: (Der Einfachheit halber werden die Symbole im Artikel neu definiert):

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

wo die Optimierungszielfunktion ist

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

wo , w ist eine bestimmte Spalte von Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 und b befindet sich in der entsprechenden Spalte von . Die Definitionen anderer Symbole sind dieselben wie zuvor.

Tatsächlich stimmt die Optimierungszielfunktion (6) vollständig mit (4) überein, Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 ist der inverse Quantisierungsprozess.

Die Umwandlung eines quantitativen Problems in ein mathematisches Optimierungsproblem der Form (5) ist der Schlüssel zur Unterscheidung von de CoupleQ von herkömmlichen quantitativen Arbeiten. Diese Transformation ermöglicht es uns, uns nur auf die Lösung von Gleichung (5) zu konzentrieren und müssen uns nicht mehr mit den Details der Quantisierung selbst wie Ausreißern usw. befassen.

Die Lösung von Gleichung (5) ist nicht einfach, da es Einschränkungen für Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 gibt, insbesondere die nicht konvexe Einschränkung . In dem Artikel gibt der Autor eine alternative Lösungsidee an, das heißt, nach einer guten Initialisierung von (s, z) und w werden (s, z) und w abwechselnd iterativ gelöst. Beachten Sie beim Lösen von (s,z), dass Gleichung (5) eine uneingeschränkte quadratische Form in Bezug auf (s,z) ist. Sie können die Zielfunktion direkt ableiten und die Ableitung auf Null setzen, um die analytische Lösung zu erhalten. Bei der Lösung von w verwendet der Autor zwei Näherungsebenen. Die Näherung der ersten Ebene weist eine höhere Konvergenz auf, die Lösung ist jedoch langsam ist schneller.

Um die Genauigkeit des quantisierten Modells weiter zu verbessern, wies der Autor darauf hin, dass zusätzlich zur MSE-Minimierung auf Schichtebene auch eine MSE-Minimierung auf Blockebene durchgeführt werden kann, das heißt:

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

In In diesem Schritt führt der Autor eine Transformatorblockebene durch. Nachdem er jede lineare Schicht quantisiert hat, korrigiert er seinen ganzzahligen Teil Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 und optimiert den Gleitkommateil (s, z) und die zugehörigen Parameter der Schichtnorm. Experimentelle Ergebnisse zeigen, dass dieser Schritt der Feinabstimmung die Genauigkeit des Modells weiter verbessern kann.

4. W2-Operator-Implementierung

Um auf das quantisierte Modell schließen zu können, ist die Unterstützung von quantisierten Operatoren in der Branche erforderlich. Die Autoren basieren auf dem w4-Operator in Tensorrt-LLM Entwickelte den Gemm-Cuda-Kernel von w2, um eine effiziente Inferenz des w2a16-Modells zu erreichen.

Das Quantisierungsmodell selbst wird in Form einer 2-Bit-Gewichtung geladen und im Videospeicher gespeichert, sodass es relativ wenig Videospeicher belegt. Unser Cuda-Kernel lädt das 2-Bit-Gewicht zur Laufzeit in das Register und verwendet dann Hardwareanweisungen, um es effizient in die bf16-Form umzuwandeln und Gemm-Operationen mit Aktivierung auszuführen. Da unser Szenario durch die Latenz begrenzt ist, ist die Stapelgröße in der Generierungsphase zu diesem Zeitpunkt relativ gering. Die Matrixmultiplikation ist durch den Gewichtsspeicherzugriff begrenzt. Diese Implementierung wird den Umfang des Speicherzugriffs erheblich reduzieren und die Leistung des Modells verbessern. Während des Implementierungsprozesses werden Algorithmussuche und SpiltK Parallel Reduce kombiniert, um die Leistung des Modells weiter zu verbessern. Laut tatsächlichen Messungen kann die Leistung von w2a16 Gemm auf der L-Karte um das 1,4- bis 1,7-fache verbessert werden im Vergleich zu w4a16.

operator Link: https://github.com/nvidia/tenorrt-llm/pull/1568

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

5. , und die Vergleichsergebnisse mit Open-Source-Experimenten sind angegeben:

Die internen experimentellen Ergebnisse sind:

In dieser Tabelle verwendet der Autor die Wortfehlerrate (WER), um die Genauigkeit von ASR zu messen. Die Autoren versuchten, das Modell mit verschiedenen Methoden auf W2A16g64 zu quantifizieren. Der Wert des Gleitkommamodells vor der Quantisierung beträgt 6,68 %. Nach der Quantisierung mit GPTQ [1] beträgt er 6,83 %. Der Wert der EntkopplungQ mit Blockminimierung beträgt nach der Quantisierung sehr ähnlich Gleitkommamodell vor der Quantisierung. Außerdem wird die für die Quantifizierung benötigte Zeit angegeben. Der Preis einer hohen Quantisierungsgenauigkeit besteht darin, dass die Quantisierung lange dauert. Im tatsächlichen Geschäft wird nach der Verwendung von de CoupleQ zur Quantifizierung des Modells der ganzzahlige Teil festgelegt und der beschriftete Datensatz zur Feinabstimmung von Skala und Null verwendet, wodurch die Genauigkeit des Modells weiter verbessert wird.

Die Ergebnisse des Open-Source-Vergleichsexperiments sind:

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

Diese Tabelle ist ein Vergleich der quantitativen Ergebnisse von de CoupleQ und anderen Methoden auf Llama-1/2. Als Bewertungsindex wird Perplexity (PPL) verwendet. Es ist ersichtlich, dass bei derselben Quantisierungskonfiguration der PPL von deoucpleQ die meiste Zeit niedriger ist als bei anderen Methoden.

6. Geschäftsvorteile

Die Quantifizierungstechnologie von de CoupleQ wird mittlerweile häufig in der Sprachabteilung von ByteDance eingesetzt. Es wurde in Spracherzeugungsmodellen (Text-to-Speech), Spracherkennungsmodellen (automatische Spracherkennung) usw. eingeführt und in Produkten wie Doubao, Feishu und Douyin implementiert. Eine große Anzahl von Online-Unternehmen zeigt, dass die Inferenzgenauigkeit von W4A16 basierend auf der De CoupleQ-Quantifizierung vollständig mit der fp16/bf16-Inferenz übereinstimmt. Die Genauigkeit von W2A16 ist nur geringfügig schlechter als die fp16/bf16-Genauigkeit (nach dem Gleitkommateil sft). die Genauigkeit liegt auf dem gleichen Niveau wie fp16/bf16) ). Obwohl in dem Papier nur die reine Gewichtsquantifizierung eingeführt wird, kann die Aktivierungsquantifizierung im tatsächlichen Geschäftsleben viel einfacher sein, nachdem das Gewicht gut quantifiziert wurde.

Im Vergleich zu fp16, w8fp16 und w4fp16 wurden gute Beschleunigungseffekte in Bezug auf die Hardwarebeschleunigung erzielt. In kleinen Chargen ist die Leistung der w2-Matrixmultiplikation 5-6-mal höher als bei fp16 und 1,5-1,7-mal höher als bei w4 . In Bezug auf interne Geschäftsmodelle weist w2fp16 eine Leistungsverbesserung um das 3- bis 5-fache im Vergleich zu fp16 und eine Leistungsverbesserung um das 1,25- bis 1,4-fache im Vergleich zu w4fp16 auf. Außerdem wird der durch das Modellgewicht belegte Speicher erheblich reduziert, wodurch ein besserer Speicher bereitgestellt wird Ausnutzung für die Laufzeit.

Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16

7. Zusammenfassung und Diskussion

Im Zusammenfassungs- und Diskussionsteil wies der Autor auch auf zwei Risiken hin, die decoupleQ derzeit birgt:

1 Verluste davor und danach werden minimiert. Die Minimierung des L2-Verlusts auf Schicht- oder Blockebene stellt jedoch möglicherweise nicht unbedingt die optimale Genauigkeit des endgültigen Modells dar

2 Im Optimierungsprozess der Gleichungen (5) und (7) beim Lösen von Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 und (s,z ) wird nur ein kleiner Teil der Kalibrierungsdaten gelöst, wodurch es bei de CoupleQ leicht zu einer Überanpassung der Kalibrierungsdaten kommt.

Dennoch hat der Autor auch darauf hingewiesen, dass die Idee, die Modellparameter in den Ganzzahlteil und den Gleitkommateil zu entkoppeln, sehr sinnvoll ist. Wenn ein beschrifteter Datensatz vorhanden ist, können wir den ganzzahligen Teil nach der Quantisierung korrigieren und den beschrifteten Datensatz verwenden, um (s, z) gezielt zu trainieren und die Genauigkeit des Modells weiter zu verbessern. Dies stellt nicht nur die Generalisierungsleistung des Modells sicher (aufgrund des festen ganzzahligen Teils Neue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16 ), sondern kann seine Fähigkeit auch auf bestimmte Unteraufgaben ausüben (aufgrund des Gleitkommateils zur Feinabstimmung). Im eigentlichen Geschäft von ByteDance kann, nachdem die vorherige Version des Modells quantifiziert und online gestellt wurde, bei der Aktualisierung der nächsten Version nur der Gleitkommateil des Modells trainiert werden.

^References:

^{1】 Elias Frantar, Saleh Ashkboos, Torsten Hoefler und Dan Alistarh.}

【2】Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng arXiv:2308.13137, 2023

【3】Ji Lin, Jiaming Tang, Haotian Tang, Shang Yang, Xingyu Dang und Song Han: Aktivierungsbewusste Gewichtsquantisierung für arXiv-Vorabdruck arXiv: 2306.00978, 2023.

Das obige ist der detaillierte Inhalt vonNeue Ideen zur Quantifizierung großer Byte-Open-Source-Modelle. Die Genauigkeit des 2-Bit-Quantisierungsmodells entspricht der von fp16. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055523 in Windows 11 nicht installieren?

4 Wochen vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1664

CakePHP-Tutorial

1422

Laravel-Tutorial

1316

PHP-Tutorial

1268

C#-Tutorial

1242

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

See all articles