Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure-IA-php.cn

Table des matières

Maison

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 am 08:43 AM

微软

En novembre 2021, Microsoft a publié un modèle de base de vision multimodale Florence (Florence), qui balayait plus de 40 tâches de référence et était facilement applicable à de nombreuses tâches telles que la classification, la détection de cibles, la VQA, la conversation à travers des images, la récupération de vidéos, l'action. tâche de reconnaissance, etc.

Après un an et demi, Florence a officiellement lancé sa phase commerciale !

Que peut faire Florence ?

Récemment, Huang Xuedong, directeur de la technologie mondiale de l'intelligence artificielle de Microsoft, a officiellement annoncé la version préliminaire publique du modèle de base de Microsoft Florence.

Le modèle Florence a été formé avec des milliards de paires texte-image et a été intégré à Azure Cognitive Vision Service. Il a atteint les exigences de « l'environnement de production » en termes de « prix » et de « performances » et est actuellement dans le étape d'essai gratuit.

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

Les services de vision améliorés permettent aux développeurs de créer des applications de vision par ordinateur de pointe, prêtes à être commercialisées et responsables dans divers secteurs. Les clients peuvent numériser, analyser et connecter en toute transparence leurs données dans des interactions en langage naturel pour extraire des informations plus précises du contenu image et vidéo, protéger les utilisateurs contre les contenus nuisibles, améliorer la sécurité et accélérer la réponse aux incidents.

Les capacités réelles de Florence sont également très puissantes et les utilisateurs peuvent en faire l'expérience « prêt à l'emploi » dans Vision Studio.

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

Site Web d'expérience : https://portal.vision.cognitive.azure.com/gallery/featured

Inclure spécifique :

Légendes denses (description détaillée) : peuvent automatiquement fournir des informations de description riches et des suggestions de conception, accessibles texte alternatif, référencement, gestion intelligente des photos et bien plus encore pour prendre en charge le contenu numérique.

Récupération d'images : utilisez des requêtes en langage naturel pour mesurer de manière transparente les similitudes entre les images et le texte afin d'améliorer les recommandations de recherche et les annonces.

Suppression de l'arrière-plan : les personnes et les objets peuvent être facilement séparés de l'arrière-plan d'origine et remplacés par d'autres scènes d'arrière-plan, modifiant ainsi l'apparence de l'image.

Personnalisation des modèles : réduisez le coût et le temps de livraison de modèles personnalisés pour répondre aux besoins commerciaux uniques avec une plus grande précision, même avec seulement un petit nombre d'images disponibles.

Résumé vidéo : recherchez et interagissez avec le contenu vidéo de la même manière intuitive que les humains pensent et écrivent. Peut aider à trouver du contenu pertinent et ne nécessite aucune métadonnée supplémentaire.

Reddit

Tiffany Ong, chef de produit produits de consommation Reddit, a déclaré que grâce à la technologie Vision de Microsoft, elle peut permettre aux utilisateurs de découvrir et de comprendre plus facilement le contenu sur Reddit.

Les descriptions d'images nouvellement créées facilitent l'accès des utilisateurs à Reddit, en utilisant des descriptions d'images pour aider les utilisateurs à améliorer les résultats de recherche d'articles, en donnant aux utilisateurs de Reddit plus d'opportunités d'explorer les images sur le site, de participer à des conversations et, finalement, d'établir des connexions et une communauté. détection.

Florence est capable de générer jusqu'à 10 000 balises par image, donnant à Reddit plus de contrôle sur le nombre d'objets dans une image et aidant à générer de meilleures descriptions d'image.

Microsoft 365

En plus de Microsoft Data Center, Microsoft améliore également les capacités des services visuels dans les applications Microsoft 365 (notamment Teams, PowerPoint, Outlook, Word, Designer, OneDrive).

Grâce aux capacités de segmentation d'images, Teams stimule l'innovation dans l'espace numérique et porte l'expérience de réunion virtuelle vers de nouveaux sommets.

PowerPoint, Outlook et Word améliorent l'accessibilité avec des descriptions d'images qui remplacent automatiquement le texte.

Microsoft Designer et OneDrive simplifient la découverte et l'édition des images grâce à des descriptions d'images, une recherche d'images et une génération d'arrière-plan améliorées.

Les centres de données Microsoft exploitent Vision Services pour améliorer la sécurité et la fiabilité de l'infrastructure.

LinkedIn

Jennison Asuncon, responsable de l'ingénierie de l'accessibilité chez LinkedIn, a déclaré que plus de 40 % des publications sur LinkedIn contiennent au moins une image. Pour les utilisateurs aveugles ou malvoyants, les services visuels peuvent permettre à tous les utilisateurs de le faire. un accès égal à la lecture et leur permettre de participer aux conversations en ligne.

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

Avec Azure Visual Cognitive Service, LinkedIn peut fournir une édition automatique de la description d'image et la prise en charge du texte alternatif, ce qui constitue une nouvelle expérience.

Non seulement je suis enthousiasmé par cela, mais mes collègues viennent de partager une photo d'eux-mêmes assistant à l'événement et le PDG de LinkedIn, Ryan Roslansky, était sur la photo.

Innover de manière responsable

L'examen des principes d'intelligence artificielle responsable révèle comment Microsoft s'engage à développer des systèmes d'intelligence artificielle pour améliorer l'accessibilité du monde.

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

Microsoft s'engage à aider les organisations à tirer le meilleur parti de l'intelligence artificielle et investit massivement dans des projets qui fournissent des technologies, des ressources et une expertise pour responsabiliser ceux qui travaillent à créer un monde plus durable, plus sûr et plus accessible.

La multimodalité est l'avenir

De nombreux géants de la technologie, dont Microsoft et Google, sont étonnamment cohérents dans la direction du développement de l'intelligence artificielle. Ils estiment que les « modèles multimodaux » sont le meilleur moyen d'améliorer les capacités des systèmes d'intelligence artificielle, c'est-à-dire un seul. Le modèle peut comprendre le langage, les images, les vidéos et les audios en même temps, et peut effectuer des tâches que les modèles monomodaux ne peuvent pas accomplir, comme l'ajout de descriptions textuelles aux vidéos.

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

Pourquoi ne pas enchaîner plusieurs modèles « monomodaux » pour atteindre le même objectif, comme utiliser un modèle pour comprendre les images et un autre modèle pour comprendre le langage ?

La première raison est que, avec les informations de base fournies par d'autres modalités, les modèles multimodaux peuvent être plus performants que les modèles monomodaux sur la même tâche dans certaines situations.

Par exemple, un assistant IA qui comprend les images, les données de prix et l'historique des achats peut fournir de meilleures recommandations de produits personnalisées qu'une IA qui « ne comprend que les données de prix ».

Et d'un point de vue informatique, les modèles multimodaux sont souvent plus efficaces, ce qui peut augmenter la vitesse de traitement des données et réduire les coûts back-end.

Il ne fait aucun doute que toutes les entreprises sont désireuses de réduire leurs coûts et d’augmenter leur efficacité.

Florence est capable de comprendre les images, les vidéos et les langages ainsi que les relations entre ces modalités, afin de pouvoir effectuer certaines tâches qui ne peuvent être accomplies par une seule modalité, comme mesurer la similarité entre les images et le texte, segmenter les objets dans les photos, puis collez-les sur un autre arrière-plan.

Presque toutes les formations de modèles d'IA sont confrontées à des problèmes de droits d'auteur sur les données. John Montgomery, vice-président d'entreprise (CVP) d'Azure AI, n'a pas révélé beaucoup d'informations en répondant sur les « données de formation de Florence ». Il a seulement déclaré que Florence utilisait des « données responsables ». Sources de données « acquises de manière aléatoire », y compris les données des partenaires ; en outre, Montgomery a déclaré que la suppression du contenu potentiellement problématique des données de formation est également une caractéristique courante des ensembles de données de formation publics.

Microsoft gagne ! Des milliards de formations de paires texte-image, multimodales Florence démarre un essai gratuit, disponible sur Azure

Montgomery estime que lors de l'utilisation d'un modèle de base volumineux, le plus important est de garantir la qualité de l'ensemble de données de formation et de créer une base pour le modèle adaptatif pour chaque tâche visuelle. a passé des tests d'équité, des cas contradictoires et difficiles, et implémente le même service de révision de contenu qu'Azure Open AI Service et DALL-E.

À l'avenir, les consommateurs pourront utiliser Florence pour faire plus, comme détecter les défauts dans le processus de fabrication et permettre le paiement en libre-service dans les magasins de détail.

Cependant, Montgomery souligne que ces cas d'utilisation ne nécessitent pas réellement un modèle de vision multimodale, mais il affirme que la multimodalité peut ajouter quelque chose de précieux dans le processus.

Florence est un modèle visuel "complètement repensé" qui ouvre un tout nouveau monde de possibilités inconnues une fois qu'un processus de traduction simple et de haute qualité est réalisé entre les images et le texte.

Les clients peuvent bénéficier d'une recherche d'images considérablement améliorée, entraîner des modèles d'image et de vision ainsi que d'autres types de modèles tels que le langage et la parole dans des types d'applications entièrement nouveaux et améliorer facilement la qualité des modèles personnalisés.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

3 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7648

Tutoriel CakePHP

1392

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT MINI RÉPONSES DE MOTS CROSS

110

Afficher plus

Related knowledge

Adresse d'entrée de la version internationale de Microsoft Bing (entrée du moteur de recherche Bing) Mar 14, 2024 pm 01:37 PM

Bing est un moteur de recherche en ligne lancé par Microsoft. La fonction de recherche est très puissante et comporte deux entrées : la version nationale et la version internationale. Où sont les entrées de ces deux versions ? Comment accéder à la version internationale ? Jetons un coup d'œil aux détails ci-dessous. Entrée du site Web de la version chinoise de Bing : https://cn.bing.com/ Entrée du site Web de la version internationale de Bing : https://global.bing.com/ Comment accéder à la version internationale de Bing ? 1. Entrez d'abord l'URL pour ouvrir Bing : https://www.bing.com/ 2. Vous pouvez voir qu'il existe des options pour les versions nationales et internationales. Il suffit de sélectionner la version internationale et de saisir les mots-clés.

Mise à niveau de Microsoft Edge : la fonction de sauvegarde automatique du mot de passe interdite ? ! Les utilisateurs ont été choqués ! Apr 19, 2024 am 08:13 AM

Actualités du 18 avril : Récemment, certains utilisateurs du navigateur Microsoft Edge utilisant le canal Canary ont signalé qu'après la mise à niveau vers la dernière version, ils avaient constaté que l'option d'enregistrement automatique des mots de passe était désactivée. Après enquête, il a été constaté qu'il s'agissait d'un ajustement mineur après la mise à niveau du navigateur, plutôt que d'une suppression de fonctionnalités. Avant d'utiliser le navigateur Edge pour accéder à un site Web, les utilisateurs ont signalé que le navigateur ouvrait une fenêtre leur demandant s'ils souhaitaient enregistrer le mot de passe de connexion au site Web. Après avoir choisi d'enregistrer, Edge remplira automatiquement le numéro de compte et le mot de passe enregistrés lors de votre prochaine connexion, offrant ainsi aux utilisateurs une grande commodité. Mais la dernière mise à jour ressemble à un ajustement, modifiant les paramètres par défaut. Les utilisateurs doivent choisir d'enregistrer le mot de passe, puis activer manuellement le remplissage automatique du compte et du mot de passe enregistrés dans les paramètres.

Microsoft publie la mise à jour cumulative Win11 août : amélioration de la sécurité, optimisation de l'écran de verrouillage, etc. Aug 14, 2024 am 10:39 AM

Selon les informations de ce site du 14 août, lors de la journée d'événement Patch Tuesday d'aujourd'hui, Microsoft a publié des mises à jour cumulatives pour les systèmes Windows 11, notamment la mise à jour KB5041585 pour 22H2 et 23H2 et la mise à jour KB5041592 pour 21H2. Après l'installation de l'équipement mentionné ci-dessus avec la mise à jour cumulative d'août, les changements de numéro de version attachés à ce site sont les suivants : Après l'installation de l'équipement 21H2, le numéro de version est passé à Build22000.314722H2. le numéro de version est passé à Build22621.403723H2. Après l'installation de l'équipement, le numéro de version est passé à Build22631.4037. Le contenu principal de la mise à jour KB5041585 pour Windows 1121H2 est le suivant : Amélioration : Amélioré.

La fenêtre contextuelle plein écran de Microsoft exhorte les utilisateurs de Windows 10 à se dépêcher et à passer à Windows 11 Jun 06, 2024 am 11:35 AM

Selon l'actualité du 3 juin, Microsoft envoie activement des notifications en plein écran à tous les utilisateurs de Windows 10 pour les encourager à passer au système d'exploitation Windows 11. Ce déplacement concerne les appareils dont les configurations matérielles ne prennent pas en charge le nouveau système. Depuis 2015, Windows 10 occupe près de 70 % des parts de marché, établissant ainsi sa domination en tant que système d'exploitation Windows. Cependant, la part de marché dépasse largement la part de marché de 82 %, et la part de marché dépasse largement celle de Windows 11, qui sortira en 2021. Même si Windows 11 est lancé depuis près de trois ans, sa pénétration sur le marché est encore lente. Microsoft a annoncé qu'il mettrait fin au support technique de Windows 10 après le 14 octobre 2025 afin de se concentrer davantage sur

La fonction de compression des fichiers 7z et TAR de Microsoft Win11 a été rétrogradée des versions 24H2 aux versions 23H2/22H2 Apr 28, 2024 am 09:19 AM

Selon les informations de ce site le 27 avril, Microsoft a publié la mise à jour de la version préliminaire de Windows 11 Build 26100 sur les canaux Canary et Dev plus tôt ce mois-ci, qui devrait devenir une version RTM candidate de la mise à jour Windows 1124H2. Les principaux changements de la nouvelle version sont l'explorateur de fichiers, l'intégration de Copilot, l'édition des métadonnées des fichiers PNG, la création de fichiers compressés TAR et 7z, etc. @PhantomOfEarth a découvert que Microsoft a délégué certaines fonctions de la version 24H2 (Germanium) à la version 23H2/22H2 (Nickel), comme la création de fichiers compressés TAR et 7z. Comme le montre le schéma, Windows 11 prendra en charge la création native de TAR

Mise à jour du navigateur Microsoft Edge : ajout de la fonction 'zoomer sur l'image' pour améliorer l'expérience utilisateur Mar 21, 2024 pm 01:40 PM

Selon l'actualité du 21 mars, Microsoft a récemment mis à jour son navigateur Microsoft Edge et ajouté une fonction pratique « agrandir l'image ». Désormais, lorsqu'ils utilisent le navigateur Edge, les utilisateurs peuvent facilement trouver cette nouvelle fonctionnalité dans le menu contextuel en cliquant simplement avec le bouton droit sur l'image. Ce qui est plus pratique, c'est que les utilisateurs peuvent également passer le curseur sur l'image, puis double-cliquer sur la touche Ctrl pour appeler rapidement la fonction de zoom avant sur l'image. Selon la compréhension de l'éditeur, le nouveau navigateur Microsoft Edge a été testé pour les nouvelles fonctionnalités du canal Canary. La version stable du navigateur a également officiellement lancé la fonction pratique « agrandir l'image », offrant aux utilisateurs une expérience de navigation d'images plus pratique. Les médias scientifiques et technologiques étrangers y ont également prêté attention.

Le SSD Microsoft Z1000 apparaît en ligne, équipé du mystérieux contrôleur CNEXLabs Mar 11, 2024 pm 01:50 PM

Selon les informations de ce site Web du 11 mars, la source Yuuki Yasuo-YuuKi_AnS a récemment partagé une série de photos d'un échantillon de disque SSD Microsoft Z1000 sur la plate-forme X. D'après les informations sur l'étiquette, nous avons appris que ce Z1000 est un échantillon d'ingénierie (échantillon d'ingénierie) d'une capacité de 960 Go. Il a été produit le 18 mai 2020. Il est alimenté par DC3,3V et a une consommation électrique nominale de 15 W. Selon des sources, il prend en charge le protocole NVMe1.2. ▲Photo avant du SSD Microsoft Z1000 (avec étiquette) ▲Photo avant du SSD Microsoft Z1000 (sans étiquette) ▲Photo arrière du SSD Microsoft Z1000 ▲Photo arrière du SSD Microsoft Z1000 - référence en gros plan du contrôle principal Yuuki Yasuho-YuuKi_An

Microsoft prévoit de supprimer progressivement NTLM dans Windows 11 au second semestre 2024 et de passer entièrement à l'authentification Kerberos Jun 09, 2024 pm 04:17 PM

Au second semestre 2024, le blog officiel de sécurité Microsoft a publié un message en réponse à l'appel de la communauté de la sécurité. La société prévoit d'éliminer le protocole d'authentification NTLAN Manager (NTLM) dans Windows 11, publié au second semestre 2024, pour améliorer la sécurité. Selon des explications précédentes, Microsoft a déjà pris des mesures similaires auparavant. Le 12 octobre dernier, Microsoft a proposé un plan de transition dans un communiqué de presse officiel visant à supprimer progressivement les méthodes d'authentification NTLM et à inciter davantage d'entreprises et d'utilisateurs à passer à Kerberos. Pour aider les entreprises susceptibles de rencontrer des problèmes avec les applications et services câblés après avoir désactivé l'authentification NTLM, Microsoft fournit IAKerb et

See all articles