La Chine l'a recommencé avec ses modèles AI et cette fois, le coup est plus grand et meilleur! BAIDU - Une entreprise de l'IA chinoise, a récemment publié deux modèles de grande langue (LLMS) - Ernie 4.5 & x1. En prétendant mieux fonctionner que le dernier et plus grand modèle d'Openai à ce jour - GPT-4.5, ces modèles sont plus rentables que Deepseek-R1! Les modèles semblent trop beaux pour être vrais - offrant une haute qualité à une fraction du prix. Dans ce blog, nous explorerons les modèles Ernie 4.5 et X1, évaluerons leurs résultats de référence et verrons comment ils fonctionnent dans des applications réelles. Alors, commençons.
Ernie 4.5 et X1 sont les deux derniers LLM multimodaux développés par la principale société de technologie chinoise Baidu, spécialisée dans les services Internet, l'intelligence artificielle et la conduite autonome. Il est surtout connu pour son moteur de recherche dominant en Chine et ses progrès dans les innovations axées sur l'IA. Baidu a lancé son premier LLM, Ernie 3.0 Titan, en décembre 2021. Après cela, il a publié quelques modèles supplémentaires, tout en travaillant simultanément pour construire des LLM plus robustes. Le résultat de toutes les recherches et des efforts continus est Ernie 4.5 & x1.
Ernie 4.5 est un modèle de fondation multimodal capable de comprendre et d'intégrer divers types de données, y compris du texte, des images, de l'audio et de la vidéo. Cette approche de modélisation diversifiée améliore sa capacité à comprendre et à générer différents types de contenu.
Voici quelques-unes des principales caractéristiques d'Ernie 4.5:
Ernie X1 est conçu comme un modèle de raisonnement en profondeur avec des capacités multimodales. C'est un premier modèle de pensée profonde de son genre publié par Baidu. Voici quelques-unes de ses principales caractéristiques:
Vous pouvez accéder à Ernie 4.5 et x1 via leur chatbot AI - Ernie Bot, soit via des API.
Accès via le bot:
Les deux modèles sont librement accessibles aux utilisateurs individuels sur la plate-forme Ernie Bot de Baidu. Cependant, l'inscription à Ernie Bot est actuellement limitée aux ressortissants chinois.
Accès via l'API:
Actuellement, la plate-forme n'est pas accessible par tous les utilisateurs. De plus, seul Ernie 4.5 est disponible via API, tandis qu'Ernie X1 sera bientôt disponible sur la plate-forme.
Dans cette section, nous découvrirons comment ces modèles fonctionnent aux tâches impliquant le multimédia, le raisonnement, l'analyse des documents, etc. Étant donné que l'interface du modèle ne prend en charge que la langue chinoise et que la création de compte est limitée aux ressortissants chinois, nous examinerons quelques exemples de la façon dont les gens utilisent les deux modèles et les résultats qu'ils ont reçus. Nous couvrirons certains des cas d'utilisation les plus courants d'Ernie 4.5 & x1 que nous avons trouvés en ligne, notamment:
Dans cette tâche, le modèle a été invité à résoudre un problème mathématique qui lui a été donné sous la forme d'une image.
Modèle utilisé: Ernie 4.5
Sortir:
Tout comme la plupart des autres LLM multimodales, Ernie 4.5 analyse rapidement la vidéo et résout le problème de l'image. Il prend toutes les questions de l'image une par une, et finalement les résume toutes. La vitesse et la précision de ses performances en font un outil utile pour les étudiants, les éducateurs, les chercheurs et les professionnels qui ont besoin d'une résolution de problèmes rapide et précise.
Ici, le modèle a reçu un document et il a dû résumer les informations sur un sujet particulier de ce document.
Modèle utilisé: Ernie 4.5
Sortir:
Le modèle vous permet de télécharger plusieurs fichiers de différents types, en une seule fois. Il est capable de traiter les fichiers de différents types, y compris les documents, les PDF, les PPT, les feuilles Excel, etc. Dans les fichiers téléchargés, vous pouvez sélectionner celui (ou plusieurs) dont vous souhaitez interroger le chatbot et le modèle résume rapidement le sujet. Son traitement rapide de plusieurs fichiers peut être très utile pour des tâches telles que l'analyse de la recherche, l'examen des documents juridiques, l'extraction des données financières et les rapports d'entreprise.
Pour cette tâche, le modèle devait analyser l'audio donné et trouver sa source.
Modèle utilisé: Ernie 4.5
Sortir:
L'analyse audio est une fonctionnalité qu'aucun des chatbots AI populaire n'a incorporé dans leur interface, ce qui rend Ernie 4.5, le premier du genre. Le modèle analyse rapidement le clip, détermine sa source, puis continue même en décrivant la signification du clip. Son analyse rapide et la description détaillée en font un outil précieux pour des tâches telles que la transcription en temps réel, la recherche vocale, la détection de profondeur et l'analyse des sentiments dans les médias, le service client, l'éducation et l'application de la loi.
Pour cette tâche, le modèle a dû analyser une pièce et suggérer des décorations possibles qui peuvent améliorer son attrait global. Il a ensuite dû générer une image mise à jour de la pièce.
Modèle utilisé: Ernie X1
Sortir:
Le modèle traite rapidement l'image. Il suggère ensuite les améliorations possibles du décor de la pièce pour améliorer l'attrait global. Enfin, il génère l'image de la pièce avec toutes les améliorations suggérées. Cette fonctionnalité est un excellent ajout pour des tâches telles que la conception d'intérieur, la planification de la rénovation domiciliaire, la mise en scène immobilière et la visualisation de décoration virtuelle.
Remarque: nous avons pris les exemples de ce post sur X.
Ernie 4.5 et X1 ont toutes les deux toutes les fonctionnalités, et encore plus, par rapport aux modèles top par Openai, Deepseek, Grok, Claude, etc. Voici une panne de prix des deux modèles:
Modèle | Prix d'entrée (par million de jetons) | Prix de production (par million de jetons) | Disponibilité |
Ernie 4.5 | 0,55 $ | 2,20 $ | Disponible |
Ernie x1 | 0,28 $ | 1,10 $ | Pas encore disponible |
Par rapport à d'autres modèles top, Ernie 4.5 et X1 sont beaucoup moins chers, ce qui en fait un atout précieux dans l'avancement de l'IA générative.
Nous avons déjà vu les fonctionnalités, les capacités et la tarification des derniers modèles Ernie. Regardons maintenant certains nombres de performances de ces modèles contre des modèles top comme GPT-4.5, GPT-4O, Deepseek-R1, et plus encore.
Le graphique ci-dessous compare Ernie 4.5 et GPT-4O sur plusieurs repères qui testent les performances d'IA multimodales.
Le graphique montre que:
Le graphique suivant compare Ernie 4.5, Deepseek V3 - Chat, GPT-4O et GPT-4.5 sur plusieurs repères pour le raisonnement et la résolution de problèmes basés sur le texte.
Voici quelques plats clés du graphique:
La course à être le Top LLM se réchauffe et Ernie 4.5 et X1 de Baidu présente une compétition sérieuse pour Openai, Deepseek, Anthropic et Meta. Les laboratoires d'IA chinois livrant des modèles qui rivalisent ou dépassent l'IA occidentale à une fraction du coût, les entreprises seront obligées d'innover plus rapidement et de réduire leurs coûts pour rester compétitifs.
Toutes ces progrès mèneront enfin à:
Les modèles Ernie 4.5 et X1 de Baidu ne sont pas seulement un autre ensemble de modèles d'IA - ce sont des perturbateurs de l'industrie. Leurs capacités multimodales et de raisonnement supérieures, leurs faibles prix et leur intégration profonde dans l'écosystème numérique chinois, signalent un changement de puissance sur le marché mondial de l'IA.
Si cette tendance se poursuit, nous verrions une démocratisation et une sensibilisation de l'IA à plus grande échelle dans diverses industries. Cela pousserait également de nombreuses entreprises occidentales à publier des modèles moins chers. Non seulement cela ajouterait à la compétitivité sur le marché, mais garantirait également que les utilisateurs obtiennent le plus de valeur pour leur argent.
A. Ernie 4.5 et X1 sont les derniers modèles de grande langue (LLMS) développés par Baidu, conçus pour rivaliser avec les meilleurs modèles d'IA comme GPT-4.5 et Deepseek-R1 d'OpenAI. Ernie 4.5 est un modèle de fondation multimodal, tandis qu'Ernie X1 est un modèle de raisonnement en profondeur avec des capacités avancées.
Q2. En quoi Ernie 4.5 de Baidu est-elle différente d'Ernie X1?A. Ernie 4.5 est optimisé pour la compréhension multimodale, capable de traiter le texte, les images, l'audio et la vidéo avec une grande précision. Ernie X1, en revanche, est conçue pour un raisonnement approfondi, excellant dans la compréhension du contexte, la planification et la résolution de problèmes avec l'auto-réflexion.
Q3. Comment Ernie 4.5 et X1 se comparent-ils au GPT-4.5 d'OpenAI?A. Baidu Ernie 4.5 surpasse GPT-4.5 dans plusieurs repères, en particulier dans le raisonnement, la compréhension multimodale et la prévention des hallucinations, tout en ne coûtant que 1% du prix de GPT-4.5. Ernie X1 offre des performances de niveau Deepseek-R1 à la moitié du coût, ce qui en fait des solutions d'IA hautement compétitives.
Q4. Quels sont les détails des prix pour Ernie 4.5 et X1? A. Ernie 4.5: Le coût des intrants de 0,55 $ par jetons 1 m, la production coûte 2,20 $ par 1 million de jetons.
Ernie X1: le coût des intrants de 0,28 $ par 1 M jetons, la production coûte 1,10 $ par 1 million de jetons.
Le modèle Ernie X1 n'est pas encore disponible via l'API mais le sera bientôt.
A. Vous pouvez accéder à ces modèles à travers:
1. Ernie Bot (CHATBOT AI) sur yiyan.baidu.com (disponible uniquement pour les utilisateurs chinois).
2. La plate-forme Maas de Baidu Ai Cloud, Qianfan, pour l'accès à l'API (actuellement seul Ernie 4.5 est disponible).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!