Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand-KI-php.cn

Heim

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 17, 2024 pm 04:08 PM

产业

Die Leistung großer Modelle wurde von 125M auf 1,3B verbessert.

Unglaublich, das ist endlich passiert.

Eine neue LLM-Architektur (Large Language Model) soll Transformer ersetzen, das bisher im KI-Bereich beliebt war und eine bessere Leistung als Mamba aufweist. Am Montag wurde ein Artikel über Test-Time-Training (TTT) zu einem heißen Thema in der Community der künstlichen Intelligenz.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Link zum Papier: https://arxiv.org/abs/2407.04620

Die Autoren dieser Studie stammen von der Stanford University, der University of California, Berkeley, der University of California, San Diego und Meta. Sie entwarfen eine neue Architektur, TTT, die den verborgenen Zustand von RNN durch ein Modell für maschinelles Lernen ersetzte. Das Modell komprimiert den Kontext durch den tatsächlichen Gradientenabfall der Eingabe-Tokens.

Karan Dalal, einer der Autoren der Studie, sagte, er glaube, dass dies den Ansatz des Sprachmodells grundlegend verändern werde.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

In Modellen für maschinelles Lernen ersetzt die TTT-Schicht direkt die Aufmerksamkeit und erschließt die lineare Komplexitätsarchitektur durch ausdrucksstarkes Gedächtnis, sodass wir LLM mit Millionen (manchmal Milliarden) Token im Kontext trainieren können.

Der Autor führte eine Reihe von Vergleichen an großen Modellen mit Parametergrößen von 125 M bis 1,3 B durch und stellte fest, dass sowohl TTT-Linear als auch TTT-MLP mit den leistungsstärksten Transformers- und Mamba-Architekturmethoden mithalten oder diese übertreffen können.

Als neuer Informationskomprimierungs- und Modellspeichermechanismus kann die TTT-Schicht die Selbstaufmerksamkeitsschicht in Transformer einfach und direkt ersetzen.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Im Vergleich zu Mamba hat TTT-Linear eine geringere Verwirrung, weniger FLOPs (links) und eine bessere Nutzung langer Kontexte (rechts):

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Dies ist nicht nur linear in der theoretischen Komplexität, sondern auch in der tatsächlichen Ausführung Die Zeit ist auch schneller.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Nachdem das Papier online ging, machte der Autor den Code und Jax öffentlich, damit die Leute trainieren und testen können: https://github.com/test-time-training/ttt-lm-jax
Auch PyTorch-Inferenzcode: https://github.com/test-time-training/ttt-lm-pytorch Natur der RNN-Schichten: Im Gegensatz zum Selbstaufmerksamkeitsmechanismus muss die RNN-Schicht den Kontext in einen verborgenen Zustand fester Größe komprimieren, und die Aktualisierungsregeln müssen die zugrunde liegende Struktur und Beziehungen zwischen Tausenden oder sogar Millionen von Token ermitteln.

Das Forschungsteam beobachtete zunächst, dass selbstüberwachtes Lernen große Trainingssätze in Gewichtungen für Modelle wie LLM komprimieren kann und LLM-Modelle oft ein tiefes Verständnis der semantischen Verbindungen zwischen ihren Trainingsdaten aufweisen.

Inspiriert von dieser Beobachtung entwarf das Forschungsteam eine neue Klasse von Sequenzmodellierungsschichten, bei denen der verborgene Zustand ein Modell und die Aktualisierungsregel ein Schritt des selbstüberwachten Lernens ist. Da der Prozess der Aktualisierung des verborgenen Zustands in der Testsequenz dem Training des Modells zur Testzeit entspricht, nennt das Forschungsteam diese neue Schicht die Schicht „Test-Time Training“ (TTT).

Das Forschungsteam stellt zwei einfache Beispiele vor: TTT-Linear und TTT-MLP, wobei die verborgenen Zustände lineare Modelle bzw. zweischichtiges MLP sind. TTT-Schichten können in jede Netzwerkarchitektur integriert und Ende-zu-Ende optimiert werden, ähnlich wie RNN-Schichten und Selbstaufmerksamkeit.

Um die TTT-Schicht effizienter zu machen, wurden in der Studie einige Tricks zur Verbesserung der TTT-Schicht übernommen:

Erstens, ähnlich wie bei der Durchführung eines Gradientenschritts für Mini-Batch-Sequenzen während des regulären Trainings, um eine bessere Parallelität zu erzielen, die Studie Verwenden Sie während der TTT kleine Mengen an Token.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Zweitens entwickelt die Studie eine duale Form für Vorgänge innerhalb jedes TTT-Mini-Batches, um moderne GPUs und TPUs besser zu nutzen. Die Ausgabe der dualen Form entspricht der einfachen Implementierung, das Training ist jedoch mehr als fünfmal schneller. Wie in Abbildung 3 dargestellt, ist TTT-Linear schneller als Transformer und im 8k-Kontext mit Mamba vergleichbar.

Das Forschungsteam geht davon aus, dass alle Ebenen der Sequenzmodellierung als Speicherung historischer Kontexte in einem verborgenen Zustand betrachtet werden können, wie in Abbildung 4 dargestellt.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Zum Beispiel komprimieren RNN-Schichten wie LSTM-, RWKV- und Mamba-Schichten den Kontext im Laufe der Zeit in einen Zustand fester Größe. Diese Komprimierung hat zwei Konsequenzen: Einerseits ist die Zuordnung der Eingabetokens x_t zu den Ausgabetokens z_t effizient, da die Aktualisierungsregeln und Ausgaberegeln für jedes Token eine konstante Zeit erfordern. Andererseits wird die Leistung einer RNN-Schicht in langen Kontexten durch die Ausdruckskraft ihrer verborgenen Zustände s_t begrenzt.

Selbstaufmerksamkeit kann auch aus der obigen Perspektive betrachtet werden, mit der Ausnahme, dass ihr verborgener Zustand (oft als Schlüsselwert-Cache bezeichnet) eine Liste ist, die linear mit t wächst. Seine Aktualisierungsregel hängt einfach das aktuelle KV-Tupel an diese Liste an, während seine Ausgaberegel alle Tupel vor t durchsucht, um die Aufmerksamkeitsmatrix zu bilden. Der verborgene Zustand speichert explizit den gesamten historischen Kontext ohne Komprimierung, was die Selbstaufmerksamkeit für lange Kontexte ausdrucksvoller macht als RNN-Schichten. Allerdings wächst auch die Zeit, die zum Scannen dieses linear wachsenden verborgenen Zustands erforderlich ist, linear an. Um lange Kontexte effizient und ausdrucksstark zu halten, benötigen Forscher eine bessere Komprimierungsheuristik. Insbesondere müssen Tausende oder möglicherweise Millionen von Token in einen verborgenen Zustand komprimiert werden, der ihre zugrunde liegende Struktur und Beziehungen effektiv erfasst. Das hört sich vielleicht schwierig an, aber viele Menschen sind mit dieser Heuristik tatsächlich sehr vertraut.

Backbone-Architektur. Der sauberste Weg, eine RNN-Schicht in eine größere Architektur zu integrieren, besteht darin, die Selbstaufmerksamkeit in Transformer, hier als Backbone bezeichnet, direkt zu ersetzen. Bestehende RNNs (wie Mamba und Griffin) verwenden jedoch andere Backbone-Schichten als Transformer. Vor allem enthalten ihre Backbone-Schichten vor der RNN-Schicht zeitliche Faltungen, die dabei helfen können, lokale Informationen über die Zeit hinweg zu sammeln. Nach Experimenten mit dem Mamba-Rückgrat stellten die Forscher fest, dass es auch die Perplexität der TTT-Schicht verbessern konnte, weshalb es in die vorgeschlagene Methode einbezogen wurde, wie in Abbildung 16 dargestellt.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Experimentelle Ergebnisse

Im Experiment verglichen die Forscher TTT-Linear und TTT-MLP mit Transformer und Mamba, zwei Basislinien.

Kurztext

Aus Abbildung 11 können wir folgende Schlussfolgerungen ziehen:

2k-Kontext, die Leistung von TTT-Linear (M), Mamba und Transformer ist vergleichbar, weil der Linien überlappen sich größtenteils. TTT-MLP (M) schneidet bei größerem FLOP-Budget etwas schlechter ab. Obwohl TTT-MLP bei verschiedenen Modellgrößen eine bessere Verwirrung als TTT-Linear aufweist, wird dieser Vorteil durch die zusätzlichen Kosten von FLOPs ausgeglichen.
Im 8k-Kontext schneiden sowohl TTT-Linear (M) als auch TTT-MLP (M) deutlich besser ab als Mamba, was sich deutlich von der Beobachtung im 2k-Kontext unterscheidet. Sogar TTT-MLP (T), das das Transformer-Backbone-Netzwerk verwendet, ist mit etwa 1,3 B etwas besser als Mamba. Ein wesentliches Phänomen besteht darin, dass mit zunehmender Kontextlänge auch die Vorteile der TTT-Schicht gegenüber der Mamba-Schicht zunehmen.
Mit einer Kontextlänge von 8 KB schneidet Transformer bei Perplexität unter jeder Modellgröße immer noch gut ab, ist jedoch aufgrund der Kosten für FLOPs nicht mehr wettbewerbsfähig.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Die obigen Ergebnisse zeigen die Auswirkungen des Wechsels der TTT-Schicht vom Mamba-Backbone-Netzwerk zum Transformer-Backbone-Netzwerk. Die Forscher stellten die Hypothese auf, dass zeitliche Faltungen im Mamba-Backbone-Netzwerk hilfreicher sind, wenn die verborgenen Zustände der Sequenzmodellierungsschicht weniger aussagekräftig sind. Lineare Modelle sind weniger ausdrucksstark als MLPs und profitieren daher stärker von Faltungen.

Langtext: Bücher

Um die Fähigkeit langer Kontexte zu bewerten, haben wir Books3, eine beliebte Teilmenge von Pile, verwendet, um mit Kontextlängen von 1.000 bis 32.000 in 2x-Schritten zu experimentieren. Die Trainingsmethode ist hier die gleiche wie bei Pile, und alle Experimente für die TTT-Schicht werden in einem Trainingslauf durchgeführt. Aus der Teilmenge der Ergebnisse in Abbildung 12 machten sie die folgenden Beobachtungen:

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Im Kontext von Books 2k gelten alle Beobachtungen für Pile 2k immer noch, mit der Ausnahme, dass Mamba jetzt etwas besser abschneidet als TTT-Linear (und ihre Linien überlappen sich ungefähr in Stapel 2k).

Im 32k-Kontext schneiden sowohl TTT-Linear (M) als auch TTT-MLP (M) besser ab als Mamba, ähnlich den Beobachtungen für Pile 8k. Selbst TTT-MLP (T) mit Transformer-Backbone schneidet im 32k-Kontext etwas besser ab als Mamba.

TTT-MLP (T) ist im Maßstab 1,3B nur geringfügig schlechter als TTT-MLP (M). Wie oben erwähnt, ist es aufgrund des Fehlens einer klaren linearen Anpassung schwierig, ein empirisches Skalierungsgesetz abzuleiten. Der starke Trend bei TTT-MLP (T) deutet jedoch darauf hin, dass das Transformer-Backbone möglicherweise besser für größere Modelle und längere Kontexte geeignet ist, was über den Rahmen unserer Bewertung hinausgeht.

Uhrzeit

Das Training und die Schlussfolgerung von LLM können in Vorwärts, Rückwärts und Generierung zerlegt werden. Die Cue-Wortverarbeitung während der Inferenz (auch Pre-Population genannt) ist die gleiche wie die Vorwärtsoperation während des Trainings, mit der Ausnahme, dass die Rückwärtsoperation keine Speicherung von Zwischenaktivierungswerten erfordert.

Da sowohl Vorwärts (beim Training und Inferenz) als auch Rückwärts parallel verarbeitet werden können, wird hier die duale Form verwendet. Die Generierung neuer Token (auch Dekodierung genannt) erfolgt sequentiell, daher wird hier die Rohform verwendet.

Der Forscher erwähnte, dass das Experiment in diesem Artikel aufgrund von Ressourcenbeschränkungen in JAX geschrieben wurde und auf TPU lief. Auf einem v5e-256-TPU-Pod benötigt die Transformer-Basislinie 0,30 Sekunden pro Iteration, um mit 2K-Kontexten zu trainieren, während TTT-Linear 0,27 Sekunden pro Iteration benötigt, was ohne Systemoptimierungen 10 % schneller ist. Da Mamba (implementiert mit PyTorch, Triton und CUDA) nur auf der GPU ausgeführt werden kann, führten die Forscher für einen fairen Vergleich eine vorläufige Systemoptimierung dieser Methode durch, damit sie auf der GPU ausgeführt werden kann.

Die linke Seite von Abbildung 15 zeigt die Latenz des Vorwärtskernels für jedes Modell bei einer Stapelgröße von 16. Alle Modelle sind 1.3B (Mamba ist 1.4B). Es ist erwähnenswert, dass die Transformer-Basislinie hier viel schneller ist als die im Mamba-Artikel, da hier vLLM anstelle von HuggingFace Transformer verwendet wird.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Darüber hinaus haben die Forscher auch einen weiteren GPU-Kernel zur Generierung geschrieben und dessen Geschwindigkeit mit einer Batchgröße von 512 auf der rechten Seite von Abbildung 15 verglichen. Eine weitere häufig verwendete Zeitmetrik ist der Durchsatz, der die potenziellen Vorteile der Verwendung größerer Chargengrößen berücksichtigt. Für den Durchsatz gelten weiterhin alle oben genannten Beobachtungen und die Reihenfolge zwischen den Methoden.

Hauptautor

Nachdem die TTT-Studie eingereicht wurde, twitterte einer der Autoren des Papiers, UCSD-Assistenzprofessor Xiaolong Wang, seine Glückwünsche. Er sagte, dass die Forschung zu TTT anderthalb Jahre gedauert habe, aber tatsächlich sei es fünf Jahre her, seit die Idee des Test Time Training (TTT) geboren wurde. Obwohl die ursprüngliche Idee und die aktuellen Ergebnisse völlig unterschiedlich sind.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Die drei Hauptautoren des TTT-Papiers kommen aus Stanford, UC Berkeley bzw. UCSD.

Unter ihnen ist Yu Sun Postdoktorand an der Stanford University. Er schloss sein Studium an der UC Berkeley EECS mit einem Ph.D. ab und seine langfristige Forschungsrichtung ist TTT.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Xinhao Li ist Doktorand an der UCSD. Er hat seinen Abschluss an der University of Electronic Science and Technology of China gemacht.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Karan Dalal ist Doktorand an der UC Berkeley und war während seiner Schulzeit Mitbegründer eines Veterinär-Telemedizin-Startups namens Otto.

Ändern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand

Die oben genannten drei Personen haben alle in der ersten Zeile ihrer persönlichen Websites eine Testzeitschulung geschrieben, in der sie Forschungsrichtungen vorstellten.

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonÄndern Sie das Sprachmodell vollständig: Die neue TTT-Architektur übertrifft den Transformer und das ML-Modell ersetzt den verborgenen RNN-Zustand. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1670

CakePHP-Tutorial

1428

Laravel-Tutorial

1329

PHP-Tutorial

1276

C#-Tutorial

1256

Related knowledge

Der DeepMind-Roboter spielt Tischtennis und seine Vor- und Rückhand rutschen in die Luft, wodurch menschliche Anfänger völlig besiegt werden Aug 09, 2024 pm 04:01 PM

Aber vielleicht kann er den alten Mann im Park nicht besiegen? Die Olympischen Spiele in Paris sind in vollem Gange und Tischtennis hat viel Aufmerksamkeit erregt. Gleichzeitig haben Roboter auch beim Tischtennisspielen neue Durchbrüche erzielt. Gerade hat DeepMind den ersten lernenden Roboteragenten vorgeschlagen, der das Niveau menschlicher Amateurspieler im Tischtennis-Wettkampf erreichen kann. Papieradresse: https://arxiv.org/pdf/2408.03906 Wie gut ist der DeepMind-Roboter beim Tischtennisspielen? Vermutlich auf Augenhöhe mit menschlichen Amateurspielern: Sowohl Vorhand als auch Rückhand: Der Gegner nutzt unterschiedliche Spielstile, und auch der Roboter hält aus: Aufschlagannahme mit unterschiedlichem Spin: Allerdings scheint die Intensität des Spiels nicht so intensiv zu sein wie Der alte Mann im Park. Für Roboter, Tischtennis

Die erste mechanische Klaue! Yuanluobao trat auf der Weltroboterkonferenz 2024 auf und stellte den ersten Schachroboter vor, der das Haus betreten kann Aug 21, 2024 pm 07:33 PM

Am 21. August fand in Peking die Weltroboterkonferenz 2024 im großen Stil statt. Die Heimrobotermarke „Yuanluobot SenseRobot“ von SenseTime hat ihre gesamte Produktfamilie vorgestellt und kürzlich den Yuanluobot AI-Schachspielroboter – Chess Professional Edition (im Folgenden als „Yuanluobot SenseRobot“ bezeichnet) herausgebracht und ist damit der weltweit erste A-Schachroboter für heim. Als drittes schachspielendes Roboterprodukt von Yuanluobo hat der neue Guoxiang-Roboter eine Vielzahl spezieller technischer Verbesserungen und Innovationen in den Bereichen KI und Maschinenbau erfahren und erstmals die Fähigkeit erkannt, dreidimensionale Schachfiguren aufzunehmen B. durch mechanische Klauen an einem Heimroboter, und führen Sie Mensch-Maschine-Funktionen aus, z. B. Schach spielen, jeder spielt Schach, Überprüfung der Notation usw.

Claude ist auch faul geworden! Netizen: Lernen Sie, sich einen Urlaub zu gönnen Sep 02, 2024 pm 01:56 PM

Der Schulstart steht vor der Tür und nicht nur die Schüler, die bald ins neue Semester starten, sollten auf sich selbst aufpassen, sondern auch die großen KI-Modelle. Vor einiger Zeit war Reddit voller Internetnutzer, die sich darüber beschwerten, dass Claude faul werde. „Sein Niveau ist stark gesunken, es kommt oft zu Pausen und sogar die Ausgabe wird sehr kurz. In der ersten Woche der Veröffentlichung konnte es ein komplettes 4-seitiges Dokument auf einmal übersetzen, aber jetzt kann es nicht einmal eine halbe Seite ausgeben.“ !

Auf der Weltroboterkonferenz wurde dieser Haushaltsroboter, der „die Hoffnung auf eine zukünftige Altenpflege' in sich trägt, umzingelt Aug 22, 2024 pm 10:35 PM

Auf der World Robot Conference in Peking ist die Präsentation humanoider Roboter zum absoluten Mittelpunkt der Szene geworden. Am Stand von Stardust Intelligent führte der KI-Roboterassistent S1 drei große Darbietungen mit Hackbrett, Kampfkunst und Kalligraphie auf Ein Ausstellungsbereich, der sowohl Literatur als auch Kampfkunst umfasst, zog eine große Anzahl von Fachpublikum und Medien an. Durch das elegante Spiel auf den elastischen Saiten demonstriert der S1 eine feine Bedienung und absolute Kontrolle mit Geschwindigkeit, Kraft und Präzision. CCTV News führte einen Sonderbericht über das Nachahmungslernen und die intelligente Steuerung hinter „Kalligraphie“ durch. Firmengründer Lai Jie erklärte, dass hinter den seidenweichen Bewegungen die Hardware-Seite die beste Kraftkontrolle und die menschenähnlichsten Körperindikatoren (Geschwindigkeit, Belastung) anstrebt. usw.), aber auf der KI-Seite werden die realen Bewegungsdaten von Menschen gesammelt, sodass der Roboter stärker werden kann, wenn er auf eine schwierige Situation stößt, und lernen kann, sich schnell weiterzuentwickeln. Und agil

Bekanntgabe der ACL 2024 Awards: Eines der besten Papers zum Thema Oracle Deciphering von HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Bei dieser ACL-Konferenz haben die Teilnehmer viel gewonnen. Die sechstägige ACL2024 findet in Bangkok, Thailand, statt. ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, wenn es um akademischen Einfluss im Bereich NLP geht, und ist außerdem eine von der CCF-A empfohlene Konferenz. Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal gibt es 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards. Die Konferenz verlieh außerdem drei Resource Paper Awards (ResourceAward) und einen Social Impact Award (

Das Team von Li Feifei schlug ReKep vor, um Robotern räumliche Intelligenz zu verleihen und GPT-4o zu integrieren Sep 03, 2024 pm 05:18 PM

Tiefe Integration von Vision und Roboterlernen. Wenn zwei Roboterhände reibungslos zusammenarbeiten, um Kleidung zu falten, Tee einzuschenken und Schuhe zu packen, gepaart mit dem humanoiden 1X-Roboter NEO, der in letzter Zeit für Schlagzeilen gesorgt hat, haben Sie vielleicht das Gefühl: Wir scheinen in das Zeitalter der Roboter einzutreten. Tatsächlich sind diese seidigen Bewegungen das Produkt fortschrittlicher Robotertechnologie + exquisitem Rahmendesign + multimodaler großer Modelle. Wir wissen, dass nützliche Roboter oft komplexe und exquisite Interaktionen mit der Umgebung erfordern und die Umgebung als Einschränkungen im räumlichen und zeitlichen Bereich dargestellt werden kann. Wenn Sie beispielsweise möchten, dass ein Roboter Tee einschenkt, muss der Roboter zunächst den Griff der Teekanne ergreifen und sie aufrecht halten, ohne den Tee zu verschütten, und ihn dann sanft bewegen, bis die Öffnung der Kanne mit der Öffnung der Tasse übereinstimmt , und neigen Sie dann die Teekanne in einem bestimmten Winkel. Das

Distributed Artificial Intelligence Conference DAI 2024 Call for Papers: Agent Day, Richard Sutton, der Vater des Reinforcement Learning, wird teilnehmen! Yan Shuicheng, Sergey Levine und DeepMind-Wissenschaftler werden Grundsatzreden halten Aug 22, 2024 pm 08:02 PM

Einleitung zur Konferenz Mit der rasanten Entwicklung von Wissenschaft und Technologie ist künstliche Intelligenz zu einer wichtigen Kraft bei der Förderung des sozialen Fortschritts geworden. In dieser Zeit haben wir das Glück, die Innovation und Anwendung der verteilten künstlichen Intelligenz (DAI) mitzuerleben und daran teilzuhaben. Verteilte Künstliche Intelligenz ist ein wichtiger Zweig des Gebiets der Künstlichen Intelligenz, der in den letzten Jahren immer mehr Aufmerksamkeit erregt hat. Durch die Kombination des leistungsstarken Sprachverständnisses und der Generierungsfähigkeiten großer Modelle sind plötzlich Agenten aufgetaucht, die auf natürlichen Sprachinteraktionen, Wissensbegründung, Aufgabenplanung usw. basieren. AIAgent übernimmt das große Sprachmodell und ist zu einem heißen Thema im aktuellen KI-Kreis geworden. Au

Hongmeng Smart Travel S9 und die umfassende Einführungskonferenz für neue Produkte wurden gemeinsam mit einer Reihe neuer Blockbuster-Produkte veröffentlicht Aug 08, 2024 am 07:02 AM

Heute Nachmittag begrüßte Hongmeng Zhixing offiziell neue Marken und neue Autos. Am 6. August veranstaltete Huawei die Hongmeng Smart Xingxing S9 und die Huawei-Konferenz zur Einführung neuer Produkte mit umfassendem Szenario und brachte die Panorama-Smart-Flaggschiff-Limousine Xiangjie S9, das neue M7Pro und Huawei novaFlip, MatePad Pro 12,2 Zoll, das neue MatePad Air und Huawei Bisheng mit Mit vielen neuen Smart-Produkten für alle Szenarien, darunter die Laserdrucker der X1-Serie, FreeBuds6i, WATCHFIT3 und der Smart Screen S5Pro, von Smart Travel über Smart Office bis hin zu Smart Wear baut Huawei weiterhin ein Smart-Ökosystem für alle Szenarien auf, um Verbrauchern ein Smart-Erlebnis zu bieten Internet von allem. Hongmeng Zhixing: Huawei arbeitet mit chinesischen Partnern aus der Automobilindustrie zusammen, um die Modernisierung der Smart-Car-Industrie voranzutreiben

See all articles