


OpenAI et Google ont fait de grands progrès au cours de deux jours consécutifs, tous deux souhaitant rendre les assistants IA « intelligents »
Après avoir vu la version printanière d'OpenAI hier, il n'est pas difficile de deviner que lors de la conférence Google I/O d'aujourd'hui, il y aura certainement une introduction aux assistants IA.
Après tout, Altman, qui a publié GPT-4o avant la conférence Google I/O, a fait preuve de toute sa pertinence. Avec les méthodes d'Altman, il est naturellement confiant pour frapper avec précision et éliminer jusqu'au bout cette « confrontation » « rouge et bleu ». .
Effectivement, lors de la conférence, le PDG de Google, Pichai, a invité Demis, le nouvel assistant d'IA de Google, le projet Astra, qui a été dévoilé par Demis, qui a fait ses débuts à la conférence Google I/O.

Qu'est-ce que le Projet Astra ?
Le Projet Astra est un assistant d'intelligence artificielle générale multimodal en temps réel avec Google Gemini comme moteur de base, équivalent au successeur de Google Assistant.
Tout comme Siri, Alexa et d'autres assistants IA que nous avons utilisés dans le passé, vous pouvez toujours interagir avec lui en utilisant la voix ; la différence est qu'avec les caractéristiques uniques de l'IA générative, elle a désormais de meilleures capacités de compréhension, elle peut le faire. plus de choses, et plus important encore, cette fois, il dispose également de capacités de reconnaissance visuelle, permettant à l'assistant IA de voir le monde les yeux ouverts.
Dans la démonstration vidéo de Google lors de la conférence, l'accent était mis sur l'intelligence visuelle de cet assistant IA.
Dans la vidéo de démonstration, un ingénieur de Google tenait un téléphone portable avec la caméra allumée, permettant à Gemini d'identifier les objets qui émettent des sons dans l'espace, d'identifier le code affiché sur l'écran du moniteur et même d'identifier l'adresse actuelle du présentateur. à travers des vues extérieures sur la rue.

En plus d'appliquer l'assistant IA aux téléphones mobiles, Google a également appliqué l'assistant IA aux lunettes AR lorsque l'ingénieur a pointé les lunettes intelligentes équipées de cet assistant IA vers le système conçu sur le tableau noir et lors de la proposition. comment améliorer le système, l'assistant IA peut même donner des suggestions pour améliorer la conception du système.

C'est l'intelligence visuelle affichée par Google sur l'assistant IA Avec la bénédiction de Gemini, les capacités interactives de ces assistants IA ont été considérablement améliorées.
Cependant, en termes de naturel de l'interaction réelle, un tel assistant IA est encore loin des résultats démontrés hier par OpenAI GPT-4o.
OpenAI a réussi à "couper"
Juste la veille de la conférence Google I/O, OpenAI a organisé une conférence de printemps massive. GPT-4o a été le protagoniste de ce printemps, déployé sur les téléphones mobiles. fonctionnalité démontrée lors de cette conférence.
À en juger par les capacités de l'assistant IA démontrées lors de la conférence OpenAI, l'effet de démonstration est meilleur en termes de convivialité du contenu de démonstration, de naturel du processus d'interaction et de capacités multimodales de cet assistant IA. .
En effet, lorsque OpenAI a chargé GPT-4o sur le téléphone mobile, il a non seulement ajouté une intelligence visuelle, mais a également permis à l'assistant IA de répondre en temps réel (le délai de réponse moyen officiel est de 320 millisecondes) et peut être frappé à tout moment peut même comprendre les émotions humaines.
Lors de la démonstration des capacités d'intelligence visuelle, OpenAI a écrit une équation mathématique sur papier pour que l'assistant IA résolve le problème étape par étape, un peu comme un professeur d'école primaire.

Et lorsque vous passez un « appel vidéo » avec GPT-4o, il peut reconnaître vos expressions faciales, comprendre vos émotions et savoir si vous avez l'air heureux ou triste maintenant, tout comme un être humain.

Il n'est pas difficile de constater qu'avec le soutien de la technologie de modèle à grande échelle d'aujourd'hui, Google et OpenAI tentent de réinventer l'assistant IA brut d'origine, en espérant que l'assistant IA puisse interagir avec nous naturellement comme de vraies personnes.
À en juger par les résultats de démonstration vidéo des deux conférences avant et après, l'assistant IA utilisant de grands modèles comme moteur de base nous a en effet clairement fait sentir qu'il existe une nette différence générationnelle entre l'assistant IA actuel et le précédent Siri. et Alexa.
En fait, alors que le développement de l'IA générative et de la technologie des grands modèles bat son plein, Apple tente également de réinventer Siri. Auparavant, Bloomberg a rapporté, citant des personnes proches du dossier, qu'Apple discutait d'une coopération avec OpenAI et Google Bring. leurs grands modèles au système d’exploitation iOS 18.
Quant à savoir si un tel assistant IA peut rendre Siri à nouveau populaire et devenir une application phare pour les téléphones IA, cela dépend de la capacité d'Apple à "enchanter" à nouveau l'assistant IA.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Le 30 mai, Tencent a annoncé une mise à niveau complète de son modèle Hunyuan. L'application « Tencent Yuanbao » basée sur le modèle Hunyuan a été officiellement lancée et peut être téléchargée sur les magasins d'applications Apple et Android. Par rapport à la version de l'applet Hunyuan lors de la phase de test précédente, Tencent Yuanbao fournit des fonctionnalités de base telles que la recherche IA, le résumé IA et l'écriture IA pour les scénarios d'efficacité du travail ; pour les scénarios de la vie quotidienne, le gameplay de Yuanbao est également plus riche et fournit de multiples fonctionnalités d'application IA. , et de nouvelles méthodes de jeu telles que la création d'agents personnels sont ajoutées. « Tencent ne s'efforcera pas d'être le premier à créer un grand modèle. » Liu Yuhong, vice-président de Tencent Cloud et responsable du grand modèle Tencent Hunyuan, a déclaré : « Au cours de l'année écoulée, nous avons continué à promouvoir les capacités de Tencent. Grand modèle Tencent Hunyuan. Dans la technologie polonaise riche et massive dans des scénarios commerciaux tout en obtenant un aperçu des besoins réels des utilisateurs.

Tan Dai, président de Volcano Engine, a déclaré que les entreprises qui souhaitent bien mettre en œuvre de grands modèles sont confrontées à trois défis clés : l'effet de modèle, le coût d'inférence et la difficulté de mise en œuvre : elles doivent disposer d'un bon support de base de grands modèles pour résoudre des problèmes complexes, et elles doivent également avoir une inférence à faible coût. Les services permettent d'utiliser largement de grands modèles, et davantage d'outils, de plates-formes et d'applications sont nécessaires pour aider les entreprises à mettre en œuvre des scénarios. ——Tan Dai, président de Huoshan Engine 01. Le grand modèle de pouf fait ses débuts et est largement utilisé. Le polissage de l'effet de modèle est le défi le plus critique pour la mise en œuvre de l'IA. Tan Dai a souligné que ce n'est que grâce à une utilisation intensive qu'un bon modèle peut être poli. Actuellement, le modèle Doubao traite 120 milliards de jetons de texte et génère 30 millions d'images chaque jour. Afin d'aider les entreprises à mettre en œuvre des scénarios de modèles à grande échelle, le modèle à grande échelle beanbao développé indépendamment par ByteDance sera lancé à travers le volcan.

1. Introduction au contexte Tout d’abord, présentons l’historique du développement de la technologie Yunwen. Yunwen Technology Company... 2023 est la période où les grands modèles prédominent. De nombreuses entreprises pensent que l'importance des graphiques a été considérablement réduite après les grands modèles et que les systèmes d'information prédéfinis étudiés précédemment ne sont plus importants. Cependant, avec la promotion du RAG et la prévalence de la gouvernance des données, nous avons constaté qu'une gouvernance des données plus efficace et des données de haute qualité sont des conditions préalables importantes pour améliorer l'efficacité des grands modèles privatisés. Par conséquent, de plus en plus d'entreprises commencent à y prêter attention. au contenu lié à la construction des connaissances. Cela favorise également la construction et le traitement des connaissances à un niveau supérieur, où de nombreuses techniques et méthodes peuvent être explorées. On voit que l'émergence d'une nouvelle technologie ne détruit pas toutes les anciennes technologies, mais peut également intégrer des technologies nouvelles et anciennes.

Selon des informations du 4 avril, l'Administration du cyberespace de Chine a récemment publié une liste de grands modèles enregistrés, et le « Grand modèle d'interaction du langage naturel Jiutian » de China Mobile y a été inclus, indiquant que le grand modèle Jiutian AI de China Mobile peut officiellement fournir des informations artificielles génératives. services de renseignement vers le monde extérieur. China Mobile a déclaré qu'il s'agit du premier modèle à grande échelle développé par une entreprise centrale à avoir réussi à la fois le double enregistrement national « Enregistrement du service d'intelligence artificielle générative » et le double enregistrement « Enregistrement de l'algorithme de service de synthèse profonde domestique ». Selon les rapports, le grand modèle d'interaction en langage naturel de Jiutian présente les caractéristiques de capacités, de sécurité et de crédibilité améliorées de l'industrie, et prend en charge la localisation complète. Il a formé plusieurs versions de paramètres telles que 9 milliards, 13,9 milliards, 57 milliards et 100 milliards. et peut être déployé de manière flexible dans le Cloud, la périphérie et la fin sont des situations différentes

Attention, cet homme a connecté plus de 1 000 grands modèles, vous permettant de vous brancher et de switcher en toute transparence. Récemment, un flux de travail d'IA visuelle a été lancé : vous offrant une interface intuitive de type glisser-déposer, vous pouvez glisser, tirer et faire glisser pour organiser votre propre flux de travail sur un canevas infini. Comme le dit le proverbe, la guerre coûte cher, et Qubit a appris que dans les 48 heures suivant la mise en ligne de cet AIWorkflow, les utilisateurs avaient déjà configuré des flux de travail personnels avec plus de 100 nœuds. Sans plus tarder, je veux parler aujourd'hui de Dify, une société LLMOps, et de son PDG Zhang Luyu. Zhang Luyu est également le fondateur de Dify. Avant de rejoindre l'entreprise, il avait 11 ans d'expérience dans l'industrie Internet. Je suis engagé dans la conception de produits, je comprends la gestion de projet et j'ai des connaissances uniques sur le SaaS. Plus tard, il

Si les questions du test sont trop simples, les meilleurs étudiants et les mauvais étudiants peuvent obtenir 90 points, et l'écart ne peut pas être creusé... Avec la sortie plus tard de modèles plus puissants tels que Claude3, Llama3 et même GPT-5, l'industrie est en besoin urgent d'un modèle de référence plus difficile et différencié. LMSYS, l'organisation à l'origine du grand modèle Arena, a lancé la référence de nouvelle génération, Arena-Hard, qui a attiré une large attention. Il existe également la dernière référence pour la force des deux versions affinées des instructions Llama3. Par rapport à MTBench, qui avait des scores similaires auparavant, la discrimination Arena-Hard est passée de 22,6 % à 87,4 %, ce qui est plus fort et plus faible en un coup d'œil. Arena-Hard est construit à partir de données humaines en temps réel provenant de l'arène et a un taux de cohérence de 89,1 % avec les préférences humaines.

Si la réponse donnée par le modèle d’IA est incompréhensible du tout, oseriez-vous l’utiliser ? À mesure que les systèmes d’apprentissage automatique sont utilisés dans des domaines de plus en plus importants, il devient de plus en plus important de démontrer pourquoi nous pouvons faire confiance à leurs résultats, et quand ne pas leur faire confiance. Une façon possible de gagner confiance dans le résultat d'un système complexe est d'exiger que le système produise une interprétation de son résultat qui soit lisible par un humain ou un autre système de confiance, c'est-à-dire entièrement compréhensible au point que toute erreur possible puisse être trouvé. Par exemple, pour renforcer la confiance dans le système judiciaire, nous exigeons que les tribunaux fournissent des avis écrits clairs et lisibles qui expliquent et soutiennent leurs décisions. Pour les grands modèles de langage, nous pouvons également adopter une approche similaire. Cependant, lorsque vous adoptez cette approche, assurez-vous que le modèle de langage génère

Ollama est un outil super pratique qui vous permet d'exécuter facilement des modèles open source tels que Llama2, Mistral et Gemma localement. Dans cet article, je vais vous présenter comment utiliser Ollama pour vectoriser du texte. Si vous n'avez pas installé Ollama localement, vous pouvez lire cet article. Dans cet article, nous utiliserons le modèle nomic-embed-text[2]. Il s'agit d'un encodeur de texte qui surpasse OpenAI text-embedding-ada-002 et text-embedding-3-small sur les tâches à contexte court et à contexte long. Démarrez le service nomic-embed-text lorsque vous avez installé avec succès o
