Maison Périphériques technologiques IA Meituan, l'Université du Zhejiang et d'autres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Meituan, l'Université du Zhejiang et d'autres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Jan 08, 2024 pm 02:46 PM
产业

La vague de grands modèles arrivant sur le terminal mobile devient de plus en plus forte, et finalement quelqu'un a déplacé les grands modèles multimodaux vers le terminal mobile. Récemment, Meituan, l'Université du Zhejiang, etc. ont lancé de grands modèles multimodaux qui peuvent être déployés sur le terminal mobile, y compris l'ensemble du processus de formation de base LLM, SFT et VLM. Peut-être que dans un avenir proche, chacun pourra posséder son propre grand modèle de manière pratique, rapide et à faible coût.

MobileVLM est un assistant de langage visuel rapide, puissant et ouvert conçu pour les appareils mobiles. Il combine une conception architecturale et une technologie pour les appareils mobiles, notamment des modèles de langage de paramètres 1.4B et 2.7B formés à partir de zéro, des modèles de vision multimodaux pré-entraînés de manière CLIP et une interaction multimodale efficace grâce à la projection. Les performances de MobileVLM sont comparables à celles des grands modèles sur divers tests de langage visuel. De plus, il démontre les vitesses d'inférence les plus rapides sur le processeur Qualcomm Snapdragon 888 et le GPU NVIDIA Jeston Orin.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

  • Adresse papier : https://arxiv.org/pdf/2312.16886.pdf
  • Adresse code : https://github.com/Meituan-AutoML/MobileVLM

Introduction

Les modèles multimodaux à grande échelle (LMM), en particulier la famille des modèles de langage visuel (VLM), sont devenus une direction de recherche prometteuse pour la construction d'assistants universels en raison de leurs capacités considérablement améliorées en matière de perception et de raisonnement. Cependant, comment connecter les représentations de grands modèles de langage (LLM) et de modèles visuels pré-entraînés, extraire des fonctionnalités multimodales et effectuer des tâches telles que la réponse visuelle aux questions, les sous-titres d'images, le raisonnement visuel des connaissances et le dialogue a toujours été un problème. .

Les excellentes performances de GPT-4V et Gemini dans cette tâche ont été prouvées à plusieurs reprises. Cependant, les détails techniques de mise en œuvre de ces modèles propriétaires sont encore mal compris. Parallèlement, la communauté des chercheurs a également proposé une série de méthodes d’ajustement linguistique. Par exemple, Flamingo exploite des jetons visuels pour conditionner des modèles de langage figés via des couches d'attention croisée fermées. BLIP-2 considère cette interaction insuffisante et introduit un transformateur de requête léger (appelé Q-Former) qui extrait les fonctionnalités les plus utiles de l'encodeur visuel gelé et les alimente directement dans le gel de LLM. MiniGPT-4 associe l'encodeur visuel gelé de BLIP-2 au modèle de langage gelé Vicuna via une couche de projection. De plus, LLaVA applique un réseau de cartographie simple pouvant être entraîné pour convertir les caractéristiques visuelles en jetons d'intégration ayant les mêmes dimensions que les intégrations de mots à traiter par le modèle de langage.

Il est à noter que les stratégies de formation évoluent progressivement pour s'adapter à la diversité des données multimodales à grande échelle. LLaVA pourrait être la première tentative de reproduire le paradigme de réglage des instructions de LLM dans un scénario multimodal. Pour générer des données de trace d'instructions multimodales, LLaVA saisit des informations textuelles, telles que la phrase de description de l'image et les coordonnées du cadre englobant de l'image, dans le modèle de langage pur GPT-4. MiniGPT-4 est d'abord formé sur un ensemble de données complet de phrases de description d'image, puis affiné sur un ensemble de données d'étalonnage de paires [image-texte]. InstructBLIP effectue le réglage des commandes du langage visuel basé sur le modèle BLIP-2 pré-entraîné, et Q-Former est formé sur divers ensembles de données organisés dans un format optimisé par les commandes. mPLUG-Owl introduit une stratégie de formation en deux étapes : d'abord pré-entraîner la partie visuelle, puis utiliser LoRA pour affiner le grand modèle de langage LLaMA en fonction des données d'instruction provenant de différentes sources.

Malgré les progrès mentionnés ci-dessus du VLM, il existe également un besoin d'utiliser des fonctions multimodales avec des ressources informatiques limitées. Gemini surpasse sota sur une gamme de références multimodales et introduit un VLM de qualité mobile avec des paramètres de 1,8 B et 3,25 B pour les appareils à faible mémoire. Et Gemini utilise également des techniques de compression courantes telles que la distillation et la quantification. L'objectif de cet article est de créer le premier VLM ouvert de qualité mobile, formé à l'aide d'ensembles de données publics et de technologies disponibles pour la perception visuelle et le raisonnement, et adapté aux plates-formes aux ressources limitées. Les contributions de cet article sont les suivantes :

  1. Cet article propose MobileVLM, qui est une transformation full-stack d'un modèle de langage visuel multimodal personnalisé pour les scénarios mobiles. Selon les auteurs, il s’agit du premier modèle de langage visuel à offrir des performances détaillées, reproductibles et puissantes à partir de zéro. Grâce à des ensembles de données contrôlés et open source, les chercheurs ont établi un ensemble de modèles linguistiques de base et de modèles multimodaux hautes performances.
  2. Cet article mène des expériences d'ablation approfondies sur la conception d'encodeurs visuels et évalue systématiquement la sensibilité des performances des VLM à divers paradigmes de formation, résolutions d'entrée et tailles de modèle.
  3. Cet article conçoit un réseau de cartographie efficace entre les fonctionnalités visuelles et les fonctionnalités textuelles, qui permet de mieux aligner les fonctionnalités multimodales tout en réduisant la consommation de raisonnement.
  4. Le modèle conçu dans cet article peut fonctionner efficacement sur des appareils mobiles à faible consommation, avec une vitesse mesurée de 21,5 jetons/s sur le processeur mobile de Qualcomm et le processeur de 65,5 pouces.
  5. MobileVLM et un grand nombre de grands modèles multimodaux fonctionnent également bien sur les benchmarks, prouvant son potentiel d'application dans de nombreuses tâches pratiques. Bien que cet article se concentre sur les scénarios de pointe, MobileVLM surpasse de nombreux VLM de pointe qui ne peuvent être pris en charge que par de puissants GPU dans le cloud. Conception de l'architecture globale de LMoBilevlmo

Considérant l'objectif principal d'obtenir une perception visuelle et un raisonnement efficaces pour les équipements marginaux avec des ressources limitées, les chercheurs ont conçu Mobilevlm. L'architecture globale, comme le montre la figure 1, le modèle contient trois composants : 1 ) encodeur visuel, 2) dispositif de bord LLM personnalisé (MobileLLaMA) et 3) réseau de cartographie efficace (appelé dans l'article « cartographie de sous-échantillonnage léger », LDP) pour aligner l'espace visuel et textuel.
Prenez une image Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888. en entrée et l'encodeur visuel F_enc en extrait l'intégration visuelle Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888. pour la perception de l'image, où N_v = HW/P^2 représente le nombre de patchs d'image et D_v représente la taille de la couche cachée de l'intégration visuelle. Afin d'atténuer le problème d'efficacité du traitement des jetons d'image, les chercheurs ont conçu un réseau de cartographie léger P pour la compression des caractéristiques visuelles et l'alignement modal du texte visuel. Il transforme f en espace d'intégration de mots et fournit des dimensions d'entrée appropriées pour le modèle de langage suivant, comme suit :

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

De cette façon, nous obtenons les jetons de l'imageMeituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888. et les jetons du texteMeituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888., où N_t représente le texte Le nombre de jetons, D_t représente la taille de l'espace d'intégration du mot. Dans le paradigme de conception MLLM actuel, LLM nécessite la plus grande quantité de calculs et de consommation de mémoire. Compte tenu de cela, cet article adapte une série de LLM faciles à inférence pour les applications mobiles, qui présentent des avantages considérables en termes de vitesse et peuvent exécuter des méthodes de prédiction autorégressives. entrée multimodale Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888., où L représente la longueur des jetons de sortie. Ce processus peut être exprimé par Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888..

Visual Encoder

Selon l'analyse empirique de la section 5.1 de l'article original, le chercheur a utilisé le CLIP ViT-L/14 pré-entraîné avec une résolution de 336 × 336 comme l'encodeur visuel F_enc . Le Visual Transformer (ViT) divise l'image en blocs d'image de taille uniforme et effectue une intégration linéaire sur chaque bloc d'image. Après intégration ultérieure avec le codage positionnel, la séquence vectorielle résultante est introduite dans le codeur de transformation régulier. Généralement, les jetons utilisés pour la classification seront ajoutés à la séquence pour les tâches de classification ultérieures.

MobileLLaMA

Pour le modèle de langage, cet article réduit la taille de LLaMA pour faciliter le déploiement, c'est-à-dire que le modèle proposé dans cet article peut prendre en charge de manière transparente presque tous les cadres d'inférence populaires. En outre, les chercheurs ont également évalué la latence du modèle sur les appareils de pointe afin de sélectionner une architecture de modèle appropriée. La recherche d'architecture neuronale (NAS) est un bon choix, mais les chercheurs ne l'ont pas encore appliqué immédiatement aux modèles actuels. Le tableau 2 montre les paramètres détaillés de l’architecture de cet article.

Plus précisément, cet article utilise le tokenizer de morceaux de phrase dans LLaMA2 avec une taille de vocabulaire de 32 000 et entraîne la couche d'intégration à partir de zéro. Cela facilitera la distillation ultérieure. En raison de ressources limitées, la longueur du contexte utilisée par tous les modèles lors de la phase de pré-formation est de 2 000 k. Cependant, comme décrit dans « Extension de la fenêtre contextuelle de grands modèles de langage via une interpolation positionnelle », la fenêtre contextuelle pendant l'inférence peut être étendue jusqu'à 8 Ko. Les paramètres détaillés pour les autres composants sont les suivants.

  • Appliquez RoPE pour injecter des informations de localisation.
  • Appliquer une pré-normalisation pour stabiliser l'entraînement. Plus précisément, cet article utilise RMSNorm au lieu de la normalisation des couches, et le taux d'expansion MLP utilise 8/3 au lieu de 4.
  • Utilisez la fonction d'activation SwiGLU au lieu de GELU.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Réseau de cartographie efficace

Le réseau de cartographie entre l'encodeur visuel et le modèle de langage est crucial pour l'alignement des fonctionnalités multimodales. Il existe deux modes existants : Q-Former et projection MLP. Q-Former contrôle explicitement le nombre de jetons visuels inclus dans chaque requête pour forcer l'extraction des informations visuelles les plus pertinentes. Cependant, cette méthode perd inévitablement les informations de localisation spatiale des jetons et a une vitesse de convergence lente. De plus, il n’est pas efficace pour l’inférence sur les appareils de périphérie. En revanche, MLP préserve les informations spatiales mais contient souvent des éléments inutiles tels que l'arrière-plan. Pour une image avec une taille de patch de P, N_v = HW/P^2 jetons visuels doivent être injectés dans le LLM, ce qui réduit considérablement la vitesse d'inférence globale. Inspirés par l'algorithme de codage de position conditionnel CPVT de ViT, les chercheurs utilisent des convolutions pour améliorer les informations de position et encourager les interactions locales des encodeurs visuels. Plus précisément, nous avons étudié les opérations adaptées aux mobiles basées sur des convolutions profondes (la forme la plus simple de PEG) qui sont à la fois efficaces et bien prises en charge par une variété d'appareils de pointe.

Afin de préserver les informations spatiales et de minimiser les coûts de calcul, cet article utilise la convolution avec une foulée de 2, réduisant ainsi le nombre de jetons visuels de 75%. Cette conception améliore considérablement la vitesse d'inférence globale. Cependant, les résultats expérimentaux montrent que la réduction du nombre d’échantillons de jetons réduira considérablement les performances des tâches en aval telles que l’OCR. Pour atténuer cet effet, les chercheurs ont conçu un réseau plus puissant pour remplacer un seul PEG. L'architecture détaillée d'un réseau de cartographie efficace, appelé Lightweight Downsampling Mapping (LDP), est présentée à la figure 2. Notamment, ce réseau cartographique contient moins de 20 millions de paramètres et fonctionne environ 81 fois plus rapidement que l'encodeur visuel.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Cet article utilise la "normalisation des couches" au lieu de la "normalisation des lots" afin que l'entraînement ne soit pas affecté par la taille du lot. Formellement, LDP (noté P) prend en entrée une intégration visuelle Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888. et génère un jeton visuel efficacement extrait et aligné Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888..

La formule est la suivante :

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Résultats expérimentaux

Résultats de l'évaluation MobileLLaMA

Dans le tableau 3, les chercheurs l'article a été révisé sur le benchmark du langage naturel Le modèle proposé a été évalué de manière approfondie sur deux critères ciblant respectivement la compréhension du langage et le raisonnement de bon sens. Dans l’évaluation du premier, cet article utilise le harnais d’évaluation du modèle linguistique. Les résultats expérimentaux montrent que MobileLLaMA 1.4B est à égalité avec les derniers modèles open source tels que TinyLLaMA 1.1B, Galactica 1.3B, OPT 1.3B et Pythia 1.4B. Il convient de noter que MobileLLaMA 1.4B surpasse TinyLLaMA 1.1B, qui est formé sur des jetons de niveau 2T et est deux fois plus rapide que MobileLLaMA 1.4B. Au niveau 3B, MobileLLaMA 2.7B affiche également des performances comparables à INCITE 3B (V1) et OpenLLaMA 3B (V1), comme le montre le tableau 5. Sur le processeur Snapdragon 888, MobileLLaMA 2.7B est environ 40 % plus rapide qu'OpenLLaMA 3B.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Comparaison avec SOTA VLM

Cet article évalue les performances multimodales de LLaVA sur GQA, ScienceQA, TextVQA, POPE et MME. De plus, cet article effectue également une comparaison complète à l'aide de MMBench. Comme le montre le tableau 4, MobileVLM atteint des performances compétitives malgré des paramètres réduits et des données de formation limitées. Dans certains cas, ses métriques surpassent même les précédents modèles de langage visuel multimodal de pointe.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

MobileVLM avec LoRA

L'adaptation de bas rang (LoRA) peut atteindre des performances identiques, voire meilleures, qu'un LLM entièrement réglé avec moins de paramètres pouvant être entraînés. Cet article mène une étude empirique de cette pratique pour valider sa performance multimodale. Plus précisément, pendant la phase d'ajustement des instructions visuelles VLM, cet article gèle tous les paramètres LLM à l'exception de la matrice LoRA. Dans MobileLLaMA 1.4B et MobileLLaMA 2.7B, les paramètres mis à jour ne représentent respectivement que 8,87 % et 7,41 % du LLM complet. Pour LoRA, cet article définit lora_r sur 128 et lora_α sur 256. Les résultats sont présentés dans le tableau 4. On peut voir que sur 6 benchmarks, MobileVLM avec LoRA atteint des performances comparables à un réglage fin complet, ce qui est cohérent avec les résultats de LoRA.

Test de latence sur les appareils mobiles

Les chercheurs ont évalué la latence d'inférence de MobileLLaMA et MobileVLM sur les téléphones mobiles Realme GT et la plateforme NVIDIA Jetson AGX Orin. Le téléphone est alimenté par un SoC Snapdragon 888 et 8 Go de RAM, qui offrent 26 TOPS de puissance de calcul. Orin est livré avec 32 Go de mémoire et offre une étonnante puissance de calcul de 275 TOPS. Il utilise la version CUDA 11.4 et prend en charge la dernière technologie de calcul parallèle pour des performances améliorées.

Expérience d'ablation

Réseau fédérateur visuel

Dans le tableau 7, les chercheurs ont comparé les performances multimodales à différentes échelles et différents nombres de jetons visuels. Toutes les expériences ont utilisé CLIP ViT comme encodeur visuel.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Réseau de cartographie VL

Étant donné que l'interaction des fonctionnalités et l'interaction des jetons sont bénéfiques, les chercheurs ont utilisé la convolution en profondeur pour la première et la convolution ponctuelle pour la seconde. Le tableau 9 montre les performances de divers réseaux cartographiés VL. La ligne 1 du tableau 9 est le module utilisé dans LLaVA, qui transforme uniquement l'espace des fonctionnalités à travers deux couches linéaires. La ligne 2 ajoute une convolution DW (en profondeur) avant chaque PW (par point) pour l'interaction des jetons, qui utilise un sous-échantillonnage 2x avec une foulée de 2. L'ajout de deux couches PW frontales apportera davantage d'interactions au niveau des fonctionnalités, compensant ainsi la perte de performances causée par la réduction des jetons. Les lignes 4 et 5 montrent que l’ajout de paramètres supplémentaires ne permet pas d’obtenir l’effet souhaité. Les lignes 4 et 6 montrent que le sous-échantillonnage des jetons à la fin du réseau cartographique a un effet positif.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Résolution visuelle et nombre de jetons

Étant donné que le nombre de jetons visuels affecte directement la vitesse d'inférence de l'ensemble du modèle multimodal, cet article compare deux options de conception : réduire la résolution d'entrée (RIR ) et en utilisant un projecteur à sous-échantillonnage léger (LDP).

L'analyse quantitative de SFT

Vicuna affinée sur LLaMA est largement utilisée pour les grands modèles multimodaux. Le tableau 10 compare deux paradigmes SFT courants, Alpaca et Vicuna. Les chercheurs ont constaté que les scores SQA, VQA, MME et MMBench se sont tous considérablement améliorés. Cela montre que le réglage fin de grands modèles de langage à l'aide des données de ShareGPT en mode conversationnel Vicuna donne finalement les meilleures performances. Afin de mieux intégrer le format d'invite de SFT à la formation des tâches en aval, cet article supprime le mode conversation sur MobileVLM et constate que vicunav1 est le plus performant.

Meituan, lUniversité du Zhejiang et dautres coopèrent pour créer un grand modèle MobileVLM multimodal mobile complet, qui peut fonctionner en temps réel et utilise le processeur Snapdragon 888.

Conclusion

En bref, MobileVLM est un ensemble de modèles de langage visuel mobile efficaces et puissants personnalisés pour les appareils mobiles et IoT. Cet article réinitialise le modèle de langage et le réseau de cartographie visuelle. Les chercheurs ont mené des expériences approfondies pour sélectionner un réseau fédérateur visuel approprié, concevoir un réseau de cartographie efficace et améliorer les capacités du modèle grâce à des solutions de formation telles que le modèle de langage SFT (une stratégie de formation en deux étapes comprenant une pré-formation et un ajustement des instructions) et LoRA fine- réglage. Les chercheurs ont rigoureusement évalué les performances de MobileVLM sur les benchmarks VLM traditionnels. MobileVLM affiche également des vitesses sans précédent sur les appareils mobiles et IoT typiques. Les chercheurs pensent que MobileVLM ouvrira de nouvelles possibilités pour un large éventail d'applications telles que les assistants multimodaux déployés sur des appareils mobiles ou des véhicules autonomes, ainsi que des robots à intelligence artificielle plus larges.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Repo: Comment relancer ses coéquipiers
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur Le premier grand modèle d'interface utilisateur en Chine est lancé ! Le grand modèle de Motiff crée le meilleur assistant pour les concepteurs et optimise le flux de travail de conception d'interface utilisateur Aug 19, 2024 pm 04:48 PM

L’intelligence artificielle se développe plus rapidement que vous ne l’imaginez. Depuis que GPT-4 a introduit la technologie multimodale aux yeux du public, les grands modèles multimodaux sont entrés dans une phase de développement rapide, passant progressivement de la recherche et du développement de modèles purs à l'exploration et à l'application dans des domaines verticaux, et sont profondément intégrés dans tous les horizons. Dans le domaine de l'interaction des interfaces, des géants internationaux de la technologie tels que Google et Apple ont investi dans la recherche et le développement de grands modèles d'interface utilisateur multimodaux, ce qui est considéré comme la seule voie à suivre pour la révolution de l'IA des téléphones mobiles. C’est dans ce contexte qu’est né le premier modèle d’assurance-chômage à grande échelle en Chine. Le 17 août, lors de la conférence internationale sur la conception d'expériences IXDC2024, Motiff, un outil de conception à l'ère de l'IA, a lancé son modèle multimodal d'interface utilisateur développé indépendamment - Motiff Model. Il s'agit du premier outil de conception d'interface utilisateur au monde

See all articles