Heim Technologie-Peripheriegeräte KI Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Sep 27, 2023 pm 02:01 PM
rwkv

Hier ist eine Zusammenfassung einiger meiner Gedanken zum RWKV-Podcast: https://www.php.cn/link/9bde76f262285bb1eaeb7b40c758b53e

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen


Warum ist die Bedeutung von Alternativen so wichtig?

Mit der Revolution der künstlichen Intelligenz im Jahr 2023 befindet sich die Transformer-Architektur derzeit auf ihrem Höhepunkt. In der Eile, die erfolgreiche Transformer-Architektur zu übernehmen, übersieht man jedoch leicht die Alternativen, aus denen man lernen kann.

Als Ingenieure sollten wir nicht einen Einheitsansatz verfolgen und für jedes Problem die gleiche Lösung verwenden. Wir sollten in jeder Situation die Vor- und Nachteile abwägen; andernfalls könnte die Gefangenschaft in den Beschränkungen einer bestimmten Plattform und das Gefühl, „zufrieden“ zu sein, weil man nicht weiß, dass es Alternativen gibt, die Entwicklung über Nacht auf die Zeit vor der Befreiung zurückführen nicht nur im Bereich der künstlichen Intelligenz, sondern ein historisches Muster, das sich von der Antike bis zur Gegenwart wiederholt.

Eine Seite in der Geschichte von SQL Wars, eine Geschichte über den Wettbewerb und die Konfrontation zwischen Datenbankverwaltungssystemen. In dieser Geschichte konkurrieren verschiedene Datenbankverwaltungssysteme wie Oracle, MySQL und SQL Server hart um Marktanteile und technische Vorteile. Diese Wettbewerbe spiegeln sich nicht nur in Leistung und Funktionalität wider, sondern umfassen auch viele Aspekte wie Geschäftsstrategie, Marketing und Benutzerzufriedenheit. Diese Datenbankverwaltungssysteme führen ständig neue Funktionen und Verbesserungen ein, um mehr Benutzer und Unternehmen dazu zu bewegen, sich für ihre Produkte zu entscheiden. Eine Seite in der Geschichte des SQL-Krieges, die die Entwicklung und Veränderungen der Datenbankverwaltungssystembranche miterlebt und uns auch wertvolle Erfahrungen und Lehren geliefert hat


Ein bemerkenswertes Beispiel in der Softwareentwicklung in letzter Zeit ist SQL Der NoSQL-Trend entstand, als Server begannen, physische Einschränkungen zu unterliegen. Startups auf der ganzen Welt wechseln aus „Größen“-Gründen zu NoSQL, obwohl sie bei weitem nicht in der Nähe dieser Größenordnungen sind

Allerdings kommt es im Laufe der Zeit zu einer zunehmenden Konsistenz und einem NoSQL-Verwaltungsaufwand sowie zu einem enormen Sprung bei den Hardwarefunktionen in Bezug auf SSD-Geschwindigkeit und -Kapazität, SQL-Server haben aufgrund ihrer Benutzerfreundlichkeit in letzter Zeit ein Comeback erlebt und mittlerweile verfügen mehr als 90 % der Startups über ausreichende Skalierbarkeit

SQL und NoSQL sind zwei verschiedene Datenbanktechnologien. SQL ist die Abkürzung für Structured Query Language, die hauptsächlich zur Verarbeitung strukturierter Daten verwendet wird. NoSQL bezieht sich auf eine nicht relationale Datenbank, die für die Verarbeitung unstrukturierter oder halbstrukturierter Daten geeignet ist. Während einige Leute denken, dass SQL besser ist als NoSQL oder umgekehrt, bedeutet dies in Wirklichkeit nur, dass jede Technologie ihre eigenen Vor- und Nachteile sowie Anwendungsfälle hat. In einigen Fällen eignet sich SQL möglicherweise besser für die Verarbeitung komplexer relationaler Daten, während NoSQL besser für die Verarbeitung umfangreicher unstrukturierter Daten geeignet ist. Dies bedeutet jedoch nicht, dass nur eine Technologie gewählt werden kann. Tatsächlich nutzen viele Anwendungen und Systeme in der Praxis Hybridlösungen aus SQL und NoSQL. Abhängig von den spezifischen Anforderungen und dem Datentyp kann die am besten geeignete Technologie zur Lösung des Problems ausgewählt werden. Daher ist es wichtig, die Merkmale und Anwendungsszenarien jeder Technologie zu verstehen und eine fundierte Entscheidung basierend auf der spezifischen Situation zu treffen. Egal, ob es sich um SQL oder NoSQL handelt, jede hat ihre eigenen einzigartigen Lernpunkte und bevorzugten Anwendungsfälle, die aus ähnlichen Technologien gelernt und untereinander besprochen werden können Transformer Architektur?

Typischerweise umfasst dies Berechnungen, Kontextgröße, Datensatz und Ausrichtung. In dieser Diskussion konzentrieren wir uns auf die Berechnung und die Kontextlänge:


Der quadratische Berechnungsaufwand aufgrund der O(N^2)-Erhöhung pro verwendetem/generiertem Token. Dies macht Kontextgrößen über 100.000 sehr teuer, was sich auf Inferenz und Training auswirkt. Der aktuelle GPU-Mangel verschärft dieses Problem.

Die Kontextgröße schränkt den Aufmerksamkeitsmechanismus ein, wodurch die Anwendungsfälle von „Smart Agents“ (wie smol-dev) stark eingeschränkt werden und eine Lösung des Problems erzwungen wird. Größere Kontexte erfordern weniger Problemumgehungen.

  • Also, wie lösen wir dieses Problem?
  • Wir stellen vor: RWKV: ein linearer T-Transformer neue Kategorie Das Erste

, das die oben genannten drei Einschränkungen direkt angeht, indem es Folgendes unterstützt:

  • Linearer Rechenaufwand, unabhängig von der Kontextgröße.
  • Erlauben Sie in CPUs (insbesondere ARM) eine angemessene Token-/Sekundenausgabe im RNN-Modus mit geringeren Anforderungen.
  • Als RNN gibt es keine feste Kontextgrößenbeschränkung. Alle Grenzwerte in der Dokumentation sind Richtlinien – Sie können sie feinabstimmen.

Während wir KI-Modelle weiter auf Kontextgrößen von 100k und mehr skalieren, beginnt der quadratische Rechenaufwand exponentiell zu wachsen.

Allerdings gab Linear Transformer die rekurrente neuronale Netzwerkarchitektur nicht auf und löste deren Engpässe, was einen Ersatz erforderlich machte.

Allerdings hat das neu gestaltete RNN die skalierbaren Lektionen von Transformer gelernt, wodurch RNN ähnlich wie Transformer funktionieren und diese Engpässe beseitigen kann.

Bringen Sie sie mit Transformers in Bezug auf die Trainingsgeschwindigkeit wieder ins Spiel – ermöglichen Sie ihnen, bei O(N)-Kosten effizient zu laufen und gleichzeitig im Training auf über 1 Milliarde Parameter zu skalieren und dabei ähnliche Leistungsniveaus beizubehalten. ... x+ Wachstum bei 2k Token-Anzahl und über 100-faches Wachstum bei einer Token-Länge von 100.000

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Mit 14B-Parametern ist RWKV der größte lineare Open-Source-Transformer, ähnlich wie GPT NeoX und andere Datensätze (wie der Pile) vergleichbar sind.


Die Leistung des RWKV-Modells ist mit bestehenden Transformatormodellen ähnlicher Größe vergleichbar, wie verschiedene Benchmarks zeigen

Aber einfacher ausgedrückt bedeutet das: Was?

Wir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen

Vorteile


Inferenz/Training ist 10x oder mehr billiger als Transformer in größeren Kontextgrößen


in. RNN Modus Herunter, okay. Läuft langsam, sehr eingeschränkt Hardware Ähnliche Leistung wie Transformer auf demselben Datensatz

  • RNN hat keine technische Kontextgrößenbeschränkung (unbegrenzter Kontext!)
  • Disad Vorteile
  • Problem mit dem Schiebefenster, verlustbehafteter Speicher über einen bestimmten Punkt hinaus


Keine Skalierung über 14B-Parameter hinaus möglichNicht so gut wie Transformatoroptimierung und -einführung

  • . Also während RWKV hat die 60B+ Parameterskala von LLaMA2 noch nicht erreicht, mit der richtigen Unterstützung und den richtigen Ressourcen hat es das Potenzial, dies zu geringeren Kosten und in einer breiteren Umgebung zu tun, insbesondere da Modelle tendenziell kleiner und effizienter sind
  • Wenn Sie Da der Anwendungsfall für die Effizienz wichtig ist, bedenken Sie dies. Dies ist jedoch nicht die endgültige Lösung – der Schlüssel liegt in gesunden Alternativen

Wir sollten darüber nachdenken, andere Alternativen und ihre Vorteile kennenzulernen

Diffusionsmodell: Texttraining ist schneller Langsam, aber äußerst flexibel für Multi-Epochen-Training. Herauszufinden, warum das so ist, kann helfen, die Token-Krise zu lindern.


Generative Adversarial Networks/Agents: Techniken können verwendet werden, um den erforderlichen Trainingssatz auf ein bestimmtes Ziel zu trainieren, selbst wenn es sich um ein textbasiertes Modell ohne Datensatz handelt.

Originaltitel: Introducing RWKV: The Rise of Linear Transformers and Exploring Alternatives, Autor:

picocreator


. https ://www.php.cn/ link/b433da1b32b5ca96c0ba7fcb9edba97d

Das obige ist der detaillierte Inhalt vonWir stellen vor: RWKV: Der Aufstieg linearer Transformatoren und die Erforschung von Alternativen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Ich habe versucht, die Vibe -Codierung mit Cursor AI und es ist erstaunlich! Ich habe versucht, die Vibe -Codierung mit Cursor AI und es ist erstaunlich! Mar 20, 2025 pm 03:34 PM

Die Vibe -Codierung verändert die Welt der Softwareentwicklung, indem wir Anwendungen mit natürlicher Sprache anstelle von endlosen Codezeilen erstellen können. Inspiriert von Visionären wie Andrej Karpathy, lässt dieser innovative Ansatz Dev

Top 5 Genai Starts vom Februar 2025: GPT-4,5, GROK-3 & MEHR! Top 5 Genai Starts vom Februar 2025: GPT-4,5, GROK-3 & MEHR! Mar 22, 2025 am 10:58 AM

Februar 2025 war ein weiterer bahnbrechender Monat für die Generative KI, die uns einige der am meisten erwarteten Modell-Upgrades und bahnbrechenden neuen Funktionen gebracht hat. Von Xais Grok 3 und Anthropics Claude 3.7 -Sonett, um g zu eröffnen

Wie benutze ich Yolo V12 zur Objekterkennung? Wie benutze ich Yolo V12 zur Objekterkennung? Mar 22, 2025 am 11:07 AM

Yolo (Sie schauen nur einmal) war ein führender Echtzeit-Objekterkennungsrahmen, wobei jede Iteration die vorherigen Versionen verbessert. Die neueste Version Yolo V12 führt Fortschritte vor, die die Genauigkeit erheblich verbessern

Ist Chatgpt 4 o verfügbar? Ist Chatgpt 4 o verfügbar? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 ist derzeit verfügbar und weit verbreitet, wodurch im Vergleich zu seinen Vorgängern wie ChatGPT 3.5 signifikante Verbesserungen beim Verständnis des Kontextes und des Generierens kohärenter Antworten zeigt. Zukünftige Entwicklungen können mehr personalisierte Inters umfassen

Beste KI -Kunstgeneratoren (kostenlos & amp; bezahlt) für kreative Projekte Beste KI -Kunstgeneratoren (kostenlos & amp; bezahlt) für kreative Projekte Apr 02, 2025 pm 06:10 PM

Der Artikel überprüft Top -KI -Kunstgeneratoren, diskutiert ihre Funktionen, Eignung für kreative Projekte und Wert. Es zeigt MidJourney als den besten Wert für Fachkräfte und empfiehlt Dall-E 2 für hochwertige, anpassbare Kunst.

Gencast von Google: Wettervorhersage mit Gencast Mini Demo Gencast von Google: Wettervorhersage mit Gencast Mini Demo Mar 16, 2025 pm 01:46 PM

Gencast von Google Deepmind: Eine revolutionäre KI für die Wettervorhersage Die Wettervorhersage wurde einer dramatischen Transformation unterzogen, die sich von rudimentären Beobachtungen zu ausgefeilten AI-angetriebenen Vorhersagen überschreitet. Google DeepMinds Gencast, ein Bodenbrei

O1 gegen GPT-4O: Ist OpenAIs neues Modell besser als GPT-4O? O1 gegen GPT-4O: Ist OpenAIs neues Modell besser als GPT-4O? Mar 16, 2025 am 11:47 AM

Openais O1: Ein 12-tägiger Geschenkbummel beginnt mit ihrem bisher mächtigsten Modell Die Ankunft im Dezember bringt eine globale Verlangsamung, Schneeflocken in einigen Teilen der Welt, aber Openai fängt gerade erst an. Sam Altman und sein Team starten ein 12-tägiges Geschenk Ex

Welche KI ist besser als Chatgpt? Welche KI ist besser als Chatgpt? Mar 18, 2025 pm 06:05 PM

Der Artikel erörtert KI -Modelle, die Chatgpt wie Lamda, Lama und Grok übertreffen und ihre Vorteile in Bezug auf Genauigkeit, Verständnis und Branchenauswirkungen hervorheben. (159 Charaktere)

See all articles