L'efficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle-IA-php.cn

Maison

L'efficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

王林

Aug 05, 2024 pm 02:20 PM

产业 mamba Griffin Hawk

En décembre de l'année dernière, la nouvelle architecture Mamba a fait exploser le cercle de l'IA et a lancé un défi à l'éternel Transformer. Aujourd'hui, le lancement de Google DeepMind « Hawk » et « Griffin » offre de nouvelles options pour le cercle de l'IA.

Cette fois, Google DeepMind a fait de nouveaux progrès dans les modèles de base.

Nous savons que les réseaux de neurones récurrents (RNN) ont joué un rôle central dans les premiers jours de la recherche sur l'apprentissage profond et le traitement du langage naturel et ont obtenu des résultats pratiques dans de nombreuses applications, notamment le premier système de traduction automatique de bout en bout de Google. . Cependant, ces dernières années, l’apprentissage profond et le NLP ont été dominés par l’architecture Transformer, qui combine le perceptron multicouche (MLP) et l’attention multi-têtes (MHA).

Transformer a atteint de meilleures performances que RNN dans la pratique et est également très efficace pour exploiter le matériel moderne. Les grands modèles de langage basés sur des transformateurs sont formés sur des ensembles de données massifs collectés sur le Web avec un succès remarquable.

Même si elle a connu un grand succès, l'architecture Transformer présente encore des défauts. Par exemple, en raison de la complexité quadratique de l'attention globale, Transformer est difficile à étendre efficacement à de longues séquences. De plus, le cache clé-valeur (KV) augmente de manière linéaire avec la longueur de la séquence, ce qui ralentit Transformer pendant l'inférence. À ce stade, les modèles de langage récurrents deviennent une alternative, ils peuvent compresser la séquence entière dans un état caché de taille fixe et la mettre à jour de manière itérative. Mais s’il veut remplacer Transformer, le nouveau modèle RNN doit non seulement afficher des performances comparables en termes de mise à l’échelle, mais également atteindre une efficacité matérielle similaire.

Dans un article récent de Google DeepMind, les chercheurs ont proposé la couche RG-LRU, qui est une nouvelle couche de boucle linéaire fermée, et ont conçu un nouveau bloc de boucle autour d'elle pour remplacer l'attention multi-requêtes (MQA).

Ils ont utilisé ce bloc de boucle pour construire deux nouveaux modèles, L'un est le modèle Hawk qui mélange MLP et blocs de boucle, L'autre est le modèle Griffin qui mélange MLP avec des blocs de boucle et une attention locale.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Titre de l'article : Griffin : Mélanger des récurrences linéaires fermées avec une attention locale pour des modèles de langage efficaces
Lien de l'article : https://arxiv.org/pdf/2402.19427.pdf

Les chercheurs affirment que Hawk et Griffin présentent une mise à l'échelle de la loi de puissance entre la perte maintenue et les FLOP d'entraînement, jusqu'à 7 paramètres B, comme observé précédemment dans Transformers. Parmi eux, Griffin atteint une perte de résistance légèrement inférieure à celle de la puissante base de Transformer, quelle que soit la taille du modèle.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Les chercheurs ont surentraîné Hawk et Griffin sur des jetons 300B pour une gamme de tailles de modèles. Les résultats ont montré que Hawk-3B surpassait Mamba-3B dans l'exécution des tâches en aval, bien que le nombre de jetons entraînés ne soit que la moitié du nombre. dernier. Griffin-7B et Griffin-14B fonctionnent de manière comparable à Llama-2 bien qu'ils aient été formés sur seulement 1/7 du nombre de jetons.

De plus, Hawk et Griffin ont atteint une efficacité d'entraînement comparable à celle des Transformers sur TPU-v3. Étant donné que la couche RNN diagonale est limitée en mémoire, les chercheurs ont utilisé le noyau de la couche RG-LRU pour y parvenir.

Également pendant l'inférence, Hawk et Griffin atteignent un débit plus élevé que MQA Transformer et obtiennent une latence plus faible lors de l'échantillonnage de longues séquences. Griffin fonctionne mieux que Transformers lorsque les séquences évaluées sont plus longues que celles observées lors de la formation, et peut apprendre efficacement les tâches de copie et de récupération à partir des données de formation. Cependant, lorsque les modèles pré-entraînés ont été évalués sur des tâches de copie et de récupération exacte sans réglage fin, Hawk et Griffin ont obtenu de moins bons résultats que Transformers.

Le co-auteur et chercheur DeepMind, Aleksandar Botev, a déclaré que Griffin, un modèle qui mélange des boucles linéaires fermées et une attention locale, conserve tous les avantages de RNN et les capacités d'expression de Transformer, et peut être étendu. à l'échelle de paramètres 14B.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle ^{Source : https://twitter.com/botev_mg/status/1763489 634082795780}

Griffin Model Architecture

Griffin Alle Modelle enthalten die folgenden Komponenten: (i) einen Restblock, (ii) einen MLP-Block, (iii) einen zeitlichen Mischblock. (i) und (ii) sind für alle Modelle gleich, es gibt jedoch drei zeitliche Mischblöcke: globale Multi-Query-Aufmerksamkeit (MQA), lokale (Schiebefenster) MQA und der in diesem Artikel vorgeschlagene wiederkehrende Block. Als Teil des wiederkehrenden Blocks verwendeten die Forscher eine Really Gated Linear Recurrent Unit (RG-LRU), eine neue wiederkehrende Schicht, die von linearen wiederkehrenden Einheiten inspiriert ist.

Wie in Abbildung 2(a) dargestellt, definiert der Restblock die globale Struktur des Griffin-Modells, das vom VornormTransformer inspiriert ist. Nach dem Einbetten der Eingabesequenz leiten wir sie durch Blöcke wie ? (? stellt die Modelltiefe dar) und wenden dann RMSNorm an, um die endgültigen Aktivierungen zu generieren. Zur Berechnung der Token-Wahrscheinlichkeiten wird eine abschließende lineare Schicht angewendet, gefolgt von Softmax. Die Gewichte dieser Ebene werden mit der Eingabeeinbettungsebene geteilt.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Rekurrentes Modell, Skalierungseffizienz vergleichbar mit Transformer

Skalierungsforschung liefert wichtige Erkenntnisse darüber, wie die Hyperparameter des Modells und sein Verhalten bei der Skalierung angepasst werden können.

Die Forscher definierten die in dieser Studie bewerteten Modelle, lieferten Skalierungskurven bis zu 7B-Parametern und darüber hinaus und bewerteten die Modellleistung bei nachgelagerten Aufgaben.

Sie betrachteten drei Modellfamilien: (1) MQA-Transformer-Basislinie; (2) Hawk: ein reines RNN-Modell; (3) Griffin: ein Hybridmodell, das wiederkehrende Blöcke mit lokaler Aufmerksamkeit mischt. Wichtige Modellhyperparameter für Modelle unterschiedlicher Größe sind in Anhang C definiert.

Die Hawk-Architektur verwendet das gleiche Restmuster und den gleichen MLP-Block wie die Transformer-Basislinie, aber die Forscher verwendeten anstelle von MQA einen wiederkehrenden Block mit einer RG-LRU-Schicht als zeitlichen Mischblock. Sie erweiterten die Breite des Schleifenblocks um einen Faktor von etwa 4/3 (d. h. ?_??? ≈4?/3), um ungefähr der Anzahl der Parameter des MHA-Blocks zu entsprechen, wenn beide die gleiche Modelldimension ? verwenden.

Griffin. Der Hauptvorteil wiederkehrender Blöcke im Vergleich zur globalen Aufmerksamkeit besteht darin, dass sie eine feste Zustandsgröße zum Zusammenfassen von Sequenzen verwenden, während die KV-Cache-Größe von MQA proportional zur Sequenzlänge wächst. Lokale Aufmerksamkeit hat die gleichen Eigenschaften, und durch die Mischung wiederkehrender Blöcke mit lokaler Aufmerksamkeit bleibt dieser Vorteil erhalten. Die Forscher fanden diese Kombination äußerst effizient, da die lokale Aufmerksamkeit die jüngste Vergangenheit genau modellieren kann, während wiederkehrende Schichten Informationen über lange Sequenzen vermitteln können.

Griffin verwendet das gleiche Restmuster und die gleichen MLP-Blöcke wie die Transformer-Basislinie. Aber im Gegensatz zur MQA Transformer-Basislinie und dem Hawk-Modell verwendet Griffin eine Mischung aus Schleifenblöcken und MQA-Blöcken. Konkret verwenden wir eine hierarchische Struktur, die zwei Restblöcke mit einem wiederkehrenden Block und dann einem lokalen (MQA) Aufmerksamkeitsblock abwechselt. Sofern nicht anders angegeben, ist die Größe des lokalen Aufmerksamkeitsfensters auf 1024 Token festgelegt.

Die wichtigsten Skalierungsergebnisse sind in Abbildung 1(a) dargestellt. Alle drei Modellfamilien wurden auf Modellgrößen im Bereich von 100 Millionen bis 7 Milliarden Parametern trainiert, obwohl Griffin über eine Version mit 14 Milliarden Parametern verfügt. Die Bewertungsergebnisse von

zu nachgelagerten Aufgaben sind in Tabelle 1 dargestellt:

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Hawk und Griffin haben beide wirklich gut gespielt. Die obige Tabelle zeigt die merkmalsnormalisierte Genauigkeit für MMLU, HellaSwag, PIQA, ARC-E und ARC-C, während die absolute Genauigkeit und Teilwerte für WinoGrande angegeben werden. Mit zunehmender Größe des Modells verbessert sich auch die Leistung von Hawk erheblich, und Hawk-3B schneidet bei nachgelagerten Aufgaben besser ab als Mamba-3B, obwohl die Anzahl der trainierten Token nur halb so hoch ist wie die von Mamba-3B. Griffin-3B schneidet deutlich besser ab als Mamba-3B, und Griffin-7B und Griffin-14B schneiden vergleichbar mit Llama-2 ab, obwohl sie mit fast 7x weniger Token trainiert werden. Hawk ist mit der MQA Transformer-Basislinie vergleichbar, während Griffin diese übertrifft.

Effizientes Trainieren des Schleifenmodells auf der Geräteseite

Bei der Entwicklung und Erweiterung des Modells stießen die Forscher auf zwei große technische Herausforderungen. Erstens, wie man Verarbeitungsmodelle effizient auf mehrere Geräte verteilt. Zweitens, wie man lineare Schleifen effektiv implementiert, um die Effizienz des TPU-Trainings zu maximieren. In diesem Artikel werden diese beiden Herausforderungen erörtert und anschließend ein empirischer Vergleich der Trainingsgeschwindigkeit von Griffin- und MQA-Basislinien bereitgestellt.

Die Forscher verglichen die Trainingsgeschwindigkeiten verschiedener Modellgrößen und Sequenzlängen, um die Rechenvorteile des Modells in diesem Artikel während des Trainingsprozesses zu untersuchen. Die Gesamtzahl der Token pro Stapel wird für jede Modellgröße konstant gehalten, was bedeutet, dass mit zunehmender Sequenzlänge die Anzahl der Sequenzen proportional abnimmt.

Abbildung 3 zeigt die relative Laufzeit des Griffin-Modells im Vergleich zum MQA-Basismodell bei 2048 Sequenzlängen.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Inferenzgeschwindigkeit

Die Inferenz von LLM besteht aus zwei Stufen. In der „Prefill“-Phase werden Eingabeaufforderungen empfangen und verarbeitet. Dieser Schritt führt tatsächlich einen Vorwärtsdurchlauf des Modells durch. Da Eingabeaufforderungen während der gesamten Sequenz parallel verarbeitet werden können, sind die meisten Modelloperationen in dieser Phase rechnerisch gebunden. Daher erwarten wir, dass die relative Geschwindigkeit von Transformern und Schleifenmodellen in der Vorbelegungsphase mit den zuvor besprochenen relativen Geschwindigkeiten übereinstimmt während des Trainings waren ähnlich.

Nach der Vorpopulation folgt die Dekodierungsphase, in der der Forscher autoregressiv Token aus dem Modell extrahiert. Wie unten gezeigt, weist das wiederkehrende Modell insbesondere bei längeren Sequenzlängen, bei denen der in der Aufmerksamkeit verwendete Schlüsselwert-Cache (KV) groß wird, eine geringere Latenz und einen höheren Durchsatz in der Dekodierungsphase auf.

Bei der Bewertung der Inferenzgeschwindigkeit sind zwei Hauptmetriken zu berücksichtigen. Die erste ist die Latenz, die die Zeit misst, die erforderlich ist, um eine bestimmte Anzahl von Tokens bei einer bestimmten Stapelgröße zu generieren. Der zweite ist der Durchsatz, der die maximale Anzahl an Token misst, die pro Sekunde generiert werden können, wenn eine bestimmte Anzahl an Token auf einem einzelnen Gerät abgetastet wird. Da der Durchsatz als Anzahl der abgetasteten Token multipliziert mit der Batch-Größe dividiert durch die Latenz berechnet wird, können Sie den Durchsatz erhöhen, indem Sie die Latenz reduzieren oder die Speichernutzung reduzieren, um eine größere Batch-Größe auf dem Gerät zu verwenden. Die Berücksichtigung der Latenz ist für Echtzeitanwendungen nützlich, die schnelle Reaktionszeiten erfordern. Auch der Durchsatz ist eine Überlegung wert, da er uns die maximale Anzahl an Token angibt, die von einem bestimmten Modell in einer bestimmten Zeit abgetastet werden können. Diese Eigenschaft ist attraktiv, wenn man andere Sprachanwendungen in Betracht zieht, wie z. B. Reinforcement Learning basierend auf menschlichem Feedback (RLHF) oder die Bewertung der Ausgabe von Sprachmodellen (wie in AlphaCode), da es attraktiv ist, in einer bestimmten Zeit eine große Anzahl von Token ausgeben zu können Besonderheit.

Hier untersuchten die Forscher die Inferenzergebnisse des Modells mit Parameter 1B. In Bezug auf die Basislinien werden sie mit dem MQA-Transformer verglichen, der bei der Inferenz deutlich schneller ist als der in der Literatur häufig verwendete Standard-MHA-Transformer. Die von den Forschern verglichenen Modelle sind: i) MQA-Konverter, ii) Hawk und iii) Griffin. Um verschiedene Modelle zu vergleichen, berichten wir über Latenz und Durchsatz.

Wie in Abbildung 4 dargestellt, verglichen die Forscher die Latenz des Modells mit einer Stapelgröße von 16, leerer Vorfüllung und Vorfüllung von 4096 Token.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Abbildung 1(b) vergleicht den maximalen Durchsatz (Tokens/Sekunde) derselben Modelle bei der Abtastung von 512, 1024, 2048 bzw. 4196 Tokens nach leeren Hinweisen.

Lange Kontextmodellierung

In diesem Artikel wird auch die Wirksamkeit von Hawk und Griffin untersucht, die längere Kontexte verwenden, um die Vorhersagen des nächsten Tokens zu verbessern, und ihre Fähigkeit zur Extrapolation während der Inferenz untersucht. Griffins Leistung bei Aufgaben, die Kopier- und Abruffähigkeiten erfordern, wird ebenfalls untersucht, sowohl in Modellen, die für solche Aufgaben trainiert wurden, als auch wenn diese Fähigkeiten mithilfe vorab trainierter Sprachmodelle getestet werden.

Aus der Grafik auf der linken Seite von Abbildung 5 ist ersichtlich, dass sowohl Hawk als auch Griffin innerhalb eines bestimmten maximalen Längenbereichs die Vorhersagefähigkeit des nächsten Tokens in einem längeren Kontext verbessern können und insgesamt in der Lage sind um auf längere Sequenzen (mindestens viermal) als beim Training zu schließen. Insbesondere Griffin schneidet beim Denken sehr gut ab, selbst wenn RoPE in der lokalen Aufmerksamkeitsschicht verwendet wird.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Wie in Abbildung 6 gezeigt, können bei der selektiven Kopieraufgabe alle drei Modelle die Aufgabe perfekt erledigen. Beim Vergleich der Lerngeschwindigkeit bei dieser Aufgabe ist Hawk deutlich langsamer als Transformer, was den Beobachtungen von Jelassi et al. (2024) ähnelt, die herausfanden, dass Mamba bei einer ähnlichen Aufgabe deutlich langsamer lernte. Obwohl Griffin nur eine lokale Aufmerksamkeitsschicht verwendet, wird seine Lerngeschwindigkeit interessanterweise kaum verlangsamt und liegt auf dem gleichen Niveau wie die Lerngeschwindigkeit von Transformer.

Lefficacité du RNN est comparable à celle de Transformer, la nouvelle architecture de Google a deux versions consécutives : elle est plus puissante que Mamba à la même échelle

Für weitere Einzelheiten lesen Sie bitte das Originalpapier.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

1 Il y a quelques mois By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

1 Il y a quelques mois By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semaines By DDD

Inzoi: Comment postuler à l'école et à l'université

3 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7759

Tutoriel Java

1644

Tutoriel CakePHP

1399

Tutoriel Laravel

1293

Tutoriel PHP

1234

Afficher plus

Related knowledge

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

See all articles