Maison Périphériques technologiques IA Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Aug 22, 2024 pm 10:38 PM
产业 Tencent Yuanbao

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com


Les modèles linguistiques à grande échelle représentés par GPT annoncent l'aube de l'intelligence artificielle générale dans l'espace cognitif numérique. Ces modèles démontrent de puissantes capacités de compréhension et de raisonnement en traitant et en générant du langage naturel, et ont montré de larges perspectives d'application dans de multiples domaines. Qu'il s'agisse de génération de contenu, de service client automatisé, d'outils de productivité, de recherche par IA ou dans des domaines tels que l'éducation et les soins médicaux, les modèles linguistiques à grande échelle favorisent constamment l'avancement de la technologie et la vulgarisation des applications.

Cependant, pour promouvoir l'intelligence artificielle générale afin d'explorer le monde physique, la première étape consiste à résoudre le problème de la compréhension visuelle, c'est-à-dire la compréhension multimodale des grands modèles. La compréhension multimodale permet à l’IA de mieux comprendre le monde et d’interagir avec lui en acquérant et en traitant des informations par l’intermédiaire de plusieurs sens, tout comme les humains. Les avancées dans ce domaine permettront à l’intelligence artificielle de progresser davantage en robotique, en conduite autonome, etc., et de véritablement passer du monde numérique au monde physique.

GPT-4V a été lancé en juin de l'année dernière, mais par rapport aux grands modèles de langage, le développement de modèles de compréhension multimodaux semble être plus lent, en particulier dans le domaine chinois. De plus, contrairement au parcours technique et à la sélection de grands modèles de langage qui sont relativement certains, l'industrie n'est pas encore parvenue à un consensus complet sur l'architecture et la sélection des méthodes de formation pour les modèles multimodaux. #                                                                                           dollars dollars dollars dollars dollars dollars Compréhension de pointe des grands modèles. Le modèle a été innovant et profondément optimisé en termes d'architecture, de méthodes de formation et de traitement des données, améliorant considérablement ses performances et prenant en charge la compréhension d'images avec n'importe quel rapport d'aspect et jusqu'à une résolution de 7K. Contrairement à la plupart des modèles multimodaux qui sont principalement adaptés à des benchmarks open source, le modèle multimodal hybride de Tencent accorde davantage d'attention à la polyvalence, à l'aspect pratique et à la fiabilité du modèle et dispose de riches capacités de compréhension de scènes multimodales. Dans l'évaluation de référence SuperCLUE-V des grands modèles multimodaux chinois récemment publiée (août 2024), Tencent Hunyuan s'est classé premier dans le pays, surpassant plusieurs modèles traditionnels à source fermée.

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Introduction à la méthode : architecture MoE
Le grand modèle de langage mixte de Tencent est le premier en Chine à adopter l'architecture du modèle expert mixte (MoE). Les performances globales du modèle sont 50 % supérieures à celles du modèle expert mixte (MoE). génération précédente et certaines capacités chinoises. Il s'est associé à GPT-4o et a considérablement amélioré ses performances pour répondre aux questions « actuelles », ainsi qu'en mathématiques, raisonnement et autres capacités. Dès le début de cette année, Tencent Hunyuan a appliqué ce modèle à Tencent Yuanbao.
Tencent Hunyuan estime que l'architecture MoE qui peut résoudre un grand nombre de tâches générales est également le meilleur choix pour les scénarios de compréhension multimodaux. Le MoE peut être mieux compatible avec un plus grand nombre de modalités et de tâches, garantissant que les différentes modalités et tâches se renforcent mutuellement plutôt que de se concurrencer.

S'appuyant sur les capacités du grand modèle de langage de Tencent Hunyuan, Tencent Hunyuan a lancé un grand modèle de compréhension multimodal basé sur l'architecture MoE. Il a apporté des innovations et des optimisations en profondeur en termes d'architecture, de méthodes de formation et de données. Traitement, et ses performances ont été considérablement améliorées. Il s’agit également du premier grand modèle multimodal basé sur l’architecture MoE en Chine.

模 Diagramme schématique de l'architecture du modèle multimodal à éléments mixtes Tencent

Simple et à grande échelle
En plus d'utiliser l'architecture MOE, la conception du modèle multimode à éléments mixtes Tencent également suit des principes simples et raisonnables d'évolutivité :

Prend en charge les résolutions arbitraires natives : par rapport aux méthodes traditionnelles de résolution fixe ou de sous-graphe découpé, le modèle multimodal hybride de Tencent peut traiter des images natives de n'importe quelle résolution. modèle multimodal pour prendre en charge la compréhension des images avec des résolutions supérieures à 7K et n'importe quel rapport hauteur/largeur (par exemple 16:1, voir l'exemple ci-dessous).
  • Utilisation d'un simple adaptateur MLP : par rapport au précédent adaptateur Q-former grand public, l'adaptateur MLP a moins de perte lors de la transmission des informations.
Cette conception simple facilite l'expansion et la mise à l'échelle des modèles et des données.

SuperClue-V se classe premier dans la liste nationale
En août 2024, SuperCLUE a publié pour la première fois la liste d'évaluation de la compréhension multimodale - SuperClue-V.
Le benchmark SuperCLUE-V comprend deux directions générales : les capacités de base et les capacités d'application. Il évalue les grands modèles multimodaux sous forme de questions ouvertes, comprenant 8 dimensions de premier niveau et 30 dimensions de deuxième niveau.

Dans cette évaluation, le système de compréhension multimodale Hunyuan, hunyuan-vision, a obtenu un score de 71,95, juste derrière GPT-4o. En termes d'applications multimodales, hunyuan-vision devance Claude3.5-Sonnet et Gemini-1.5-Pro. Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Il convient de noter que les évaluations multimodales précédentes dans l'industrie se concentraient principalement sur la maîtrise de l'anglais et que la plupart des questions d'évaluation étaient des questions à choix multiples ou des questions vrai-faux. L’évaluation SuperCLUE-V se concentre davantage sur l’évaluation des compétences en chinois et se concentre sur les problèmes réels des utilisateurs. De plus, puisqu’il s’agit de la première version, le surapprentissage ne s’est pas encore produit.

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Tencent Hunyuan Graphics and Text Large Model montre de bonnes performances dans plusieurs dimensions telles que les scènes générales, la reconnaissance et la compréhension OCR d'images, ainsi que la compréhension et le raisonnement des éléments chinois, et reflète également le potentiel du modèle dans les applications futures. . Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de TencentDestiné aux scénarios d'application généraux

Le modèle de compréhension multimodale à éléments mixtes est optimisé pour les scénarios généraux et les applications massives, et a accumulé des dizaines de millions de corpus de questions et réponses connexes, couvrant les bases compréhension d'images, création de contenu, il peut être utilisé dans de nombreux scénarios tels que l'analyse du raisonnement, les questions et réponses de connaissances, l'analyse de documents OCR et la réponse au sujet. Voici quelques exemples d'applications typiques.

Voici des exemples plus typiques : Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Convertir une image en tableau texte :

Expliquer un morceau de code : Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Analyser une facture : Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Description Contenu de l'image :

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Résoudre des problèmes de mathématiques :

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Analyser en fonction du contenu de l'image :

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

Vous aider à rédiger une copie :

Le premier grand modèle multimodal du MoE auto-développé par la Chine révèle la compréhension multimodale à éléments mixtes de Tencent

À l'heure actuelle, le grand modèle de compréhension multimodale Hunyuan de Tencent a été lancé dans le produit d'assistant d'IA Tencent Yuanbao et est ouvert aux entreprises et aux développeurs individuels via Tencent Cloud.

Adresse Tencent Yuanbao : https://yuanbao.tencent.com/chat

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Le robot DeepMind joue au tennis de table, et son coup droit et son revers glissent dans les airs, battant complètement les débutants humains Aug 09, 2024 pm 04:01 PM

Mais peut-être qu’il ne pourra pas vaincre le vieil homme dans le parc ? Les Jeux Olympiques de Paris battent leur plein et le tennis de table suscite beaucoup d'intérêt. Dans le même temps, les robots ont également réalisé de nouvelles avancées dans le domaine du tennis de table. DeepMind vient tout juste de proposer le premier agent robot apprenant capable d'atteindre le niveau des joueurs amateurs humains de tennis de table de compétition. Adresse papier : https://arxiv.org/pdf/2408.03906 Quelle est la capacité du robot DeepMind à jouer au tennis de table ? Probablement à égalité avec les joueurs amateurs humains : tant en coup droit qu'en revers : l'adversaire utilise une variété de styles de jeu, et le robot peut également résister : recevoir des services avec des tours différents : Cependant, l'intensité du jeu ne semble pas aussi intense que le vieil homme dans le parc. Pour les robots, le tennis de table

La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison La première griffe mécanique ! Yuanluobao est apparu à la World Robot Conference 2024 et a lancé le premier robot d'échecs pouvant entrer dans la maison Aug 21, 2024 pm 07:33 PM

Le 21 août, la Conférence mondiale sur les robots 2024 s'est tenue en grande pompe à Pékin. La marque de robots domestiques de SenseTime, "Yuanluobot SenseRobot", a dévoilé toute sa famille de produits et a récemment lancé le robot de jeu d'échecs Yuanluobot AI - Chess Professional Edition (ci-après dénommé "Yuanluobot SenseRobot"), devenant ainsi le premier robot d'échecs au monde pour le maison. En tant que troisième produit robot jouant aux échecs de Yuanluobo, le nouveau robot Guoxiang a subi un grand nombre de mises à niveau techniques spéciales et d'innovations en matière d'IA et de machines d'ingénierie. Pour la première fois, il a réalisé la capacité de ramasser des pièces d'échecs en trois dimensions. grâce à des griffes mécaniques sur un robot domestique et effectuer des fonctions homme-machine telles que jouer aux échecs, tout le monde joue aux échecs, réviser la notation, etc.

Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Claude aussi est devenu paresseux ! Internaute : apprenez à vous accorder des vacances Sep 02, 2024 pm 01:56 PM

La rentrée scolaire est sur le point de commencer, et ce ne sont pas seulement les étudiants qui sont sur le point de commencer le nouveau semestre qui doivent prendre soin d’eux-mêmes, mais aussi les grands modèles d’IA. Il y a quelque temps, Reddit était rempli d'internautes se plaignant de la paresse de Claude. « Son niveau a beaucoup baissé, il fait souvent des pauses et même la sortie devient très courte. Au cours de la première semaine de sortie, il pouvait traduire un document complet de 4 pages à la fois, mais maintenant il ne peut même plus produire une demi-page. !" https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dans un post intitulé "Totalement déçu par Claude", plein de

Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Lors de la World Robot Conference, ce robot domestique porteur de « l'espoir des futurs soins aux personnes âgées » a été entouré Aug 22, 2024 pm 10:35 PM

Lors de la World Robot Conference qui se tient à Pékin, l'exposition de robots humanoïdes est devenue le centre absolu de la scène. Sur le stand Stardust Intelligent, l'assistant robot IA S1 a réalisé trois performances majeures de dulcimer, d'arts martiaux et de calligraphie. un espace d'exposition, capable à la fois d'arts littéraires et martiaux, a attiré un grand nombre de publics professionnels et de médias. Le jeu élégant sur les cordes élastiques permet au S1 de démontrer un fonctionnement fin et un contrôle absolu avec vitesse, force et précision. CCTV News a réalisé un reportage spécial sur l'apprentissage par imitation et le contrôle intelligent derrière "Calligraphy". Le fondateur de la société, Lai Jie, a expliqué que derrière les mouvements soyeux, le côté matériel recherche le meilleur contrôle de la force et les indicateurs corporels les plus humains (vitesse, charge). etc.), mais du côté de l'IA, les données réelles de mouvement des personnes sont collectées, permettant au robot de devenir plus fort lorsqu'il rencontre une situation forte et d'apprendre à évoluer rapidement. Et agile

Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Annonce des prix ACL 2024 : l'un des meilleurs articles sur le déchiffrement Oracle par HuaTech, GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

Les contributeurs ont beaucoup gagné de cette conférence ACL. L'ACL2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande. ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL s'est toujours classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A. La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, il y a 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards. La conférence a également décerné 3 Resource Paper Awards (ResourceAward) et Social Impact Award (

Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Hongmeng Smart Travel S9 et conférence de lancement de nouveaux produits avec scénario complet, un certain nombre de nouveaux produits à succès ont été lancés ensemble Aug 08, 2024 am 07:02 AM

Cet après-midi, Hongmeng Zhixing a officiellement accueilli de nouvelles marques et de nouvelles voitures. Le 6 août, Huawei a organisé la conférence de lancement de nouveaux produits Hongmeng Smart Xingxing S9 et Huawei, réunissant la berline phare intelligente panoramique Xiangjie S9, le nouveau M7Pro et Huawei novaFlip, MatePad Pro 12,2 pouces, le nouveau MatePad Air, Huawei Bisheng With de nombreux nouveaux produits intelligents tous scénarios, notamment la série d'imprimantes laser X1, FreeBuds6i, WATCHFIT3 et l'écran intelligent S5Pro, des voyages intelligents, du bureau intelligent aux vêtements intelligents, Huawei continue de construire un écosystème intelligent complet pour offrir aux consommateurs une expérience intelligente du Internet de tout. Hongmeng Zhixing : Autonomisation approfondie pour promouvoir la modernisation de l'industrie automobile intelligente Huawei s'associe à ses partenaires de l'industrie automobile chinoise pour fournir

L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o L'équipe de Li Feifei a proposé ReKep pour donner aux robots une intelligence spatiale et intégrer GPT-4o Sep 03, 2024 pm 05:18 PM

Intégration profonde de la vision et de l'apprentissage des robots. Lorsque deux mains de robot travaillent ensemble en douceur pour plier des vêtements, verser du thé et emballer des chaussures, associées au robot humanoïde 1X NEO qui a fait la une des journaux récemment, vous pouvez avoir le sentiment : nous semblons entrer dans l'ère des robots. En fait, ces mouvements soyeux sont le produit d’une technologie robotique avancée + d’une conception de cadre exquise + de grands modèles multimodaux. Nous savons que les robots utiles nécessitent souvent des interactions complexes et exquises avec l’environnement, et que l’environnement peut être représenté comme des contraintes dans les domaines spatial et temporel. Par exemple, si vous souhaitez qu'un robot verse du thé, le robot doit d'abord saisir la poignée de la théière et la maintenir verticalement sans renverser le thé, puis la déplacer doucement jusqu'à ce que l'embouchure de la théière soit alignée avec l'embouchure de la tasse. , puis inclinez la théière selon un certain angle. ce

Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Conférence sur l'intelligence artificielle distribuée Appel à communications DAI 2024 : Agent Day, Richard Sutton, le père de l'apprentissage par renforcement, sera présent ! Yan Shuicheng, Sergey Levine et les scientifiques de DeepMind prononceront des discours d'ouverture Aug 22, 2024 pm 08:02 PM

Introduction à la conférence Avec le développement rapide de la science et de la technologie, l'intelligence artificielle est devenue une force importante dans la promotion du progrès social. À notre époque, nous avons la chance d’être témoins et de participer à l’innovation et à l’application de l’intelligence artificielle distribuée (DAI). L’intelligence artificielle distribuée est une branche importante du domaine de l’intelligence artificielle, qui a attiré de plus en plus d’attention ces dernières années. Les agents basés sur de grands modèles de langage (LLM) ont soudainement émergé. En combinant les puissantes capacités de compréhension du langage et de génération des grands modèles, ils ont montré un grand potentiel en matière d'interaction en langage naturel, de raisonnement par connaissances, de planification de tâches, etc. AIAgent reprend le grand modèle de langage et est devenu un sujet brûlant dans le cercle actuel de l'IA. Au

See all articles