Le grand modèle d'Alibaba Cloud est nouveau ! L'artefact d'IA « Tongyi Listening » est en version bêta publique : une longue vidéo peut être résumée en une seconde, et elle peut également prendre automatiquement des notes et tourner les sous-titres pour récolter la laine |-IA-php.cn

Un autre outil pratique pour les réunions de groupe avec accès aux capacités de grands modèles, désormais ouvert en version bêta publique gratuite !

Le grand modèle derrière tout cela est Tongyi Qianwen d’Alibaba. Quant à savoir pourquoi on dit que c'est un outil magique pour les réunions de groupe -

Regardez, voici mon instructeur à la Station B, M. Li Mu, qui amène les étudiants à lire intensivement un grand modèle de papier.

Malheureusement à ce moment-là, le patron m'a exhorté à déplacer les briques rapidement. Je n'ai eu d'autre choix que d'enlever silencieusement mes écouteurs, de cliquer sur le plug-in appelé « Tongyi Listening », puis de changer de page.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Devinez quoi ? Même si je n'étais pas à la « réunion de groupe », Tingwu m'a aidé à enregistrer complètement le contenu de la réunion de groupe.

Cela m'a même aidé à résumer des mots clés, un résumé en texte intégral et des points d'apprentissage en un seul clic.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Pour faire simple, cette « Écoute du sens général » qui vient d'être connectée à la capacité grand modèle est une version grand modèle d'un assistant IA travail-études qui se concentre sur le contenu audio et vidéo.

Contrairement aux outils de transcription d'enregistrement précédents, il peut non seulement convertir des enregistrements et des vidéos en texte. Il peut résumer l'ensemble du texte en un seul clic, et il peut également résumer les opinions de différents intervenants :

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Il peut même être utilisé comme traduction de sous-titres en temps réel :

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Il semble que ce ne soit pas seulement utile pour tenir des réunions de groupe, mais aussi pour les qubits réguliers qui doivent gérer beaucoup d'enregistrements, veiller tard et diverses conférences à l'étranger, c'est vraiment un nouvel artefact pour le travail quotidien.

Nous avons rapidement procédé à un test approfondi.

Un test pratique de Tongyi Listening

La chose la plus fondamentale et la plus importante dans l'organisation et l'analyse du contenu audio est l'exactitude de la transcription.

Round 1, nous mettons d'abord en ligne une vidéo chinoise d'environ 10 minutes pour voir les performances de Tingwu en termes de précision par rapport à des outils similaires.

Fondamentalement, l'IA traite très rapidement ces audio et vidéo de longueur moyenne, et ils peuvent être transcrits en moins de 2 minutes.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Jetons d'abord un coup d'œil à la performance de Tingwu :

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Dans ce paragraphe d'environ 200 mots, Tingwu n'a commis que deux erreurs : fort → mur, les deux bons → juste comme il faut. Les termes physiques tels que noyau atomique, charge électrique et répulsion peuvent être compris en écoutant.

Nous l'avons également testé sur Feishu Miaoji en utilisant la même vidéo. Le problème de base n'est pas grave, mais par rapport à l'écoute, Feishu a commis deux autres erreurs. L'un des « atomes » a été écrit comme « jardin » et « répulsion » a été lu comme « pouvoir ».

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Ce qui est intéressant, c'est que Feishu a également reproduit une à une les erreurs commises par Hengwu. Il semble que ce pot doive être épaulé par un certain maître qui parle et avale des mots en Qubit (tête de chien manuelle).

Quand iFlytek l'a entendu, il a pu distinguer le "juste comme il faut" que les deux premiers concurrents n'ont pas reconnu. Mais iFlytek a essentiellement traduit tout « mur » par « fort », et la combinaison magique de « grains de sucre forts » est apparue. De plus, parmi les trois concurrents, seul iFlytek a mal compris la « force électromagnétique » comme la « force électronique ».

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

En général, la reconnaissance chinoise n'est pas difficile pour ces outils d'IA. Alors, comment vont-ils se comporter face aux matériaux anglais ?

Nous avons mis en ligne une dernière interview avec Musk sur ses différends passés avec OpenAI.

Jetons d'abord un coup d'œil aux résultats donnés par Tingwu. Dans les réponses de Musk, à l’exception du nom de Larry Page, Hua Wu a identifié correctement tous les autres.

Il convient de mentionner que Tingwu peut traduire directement les résultats de la translittération anglaise en chinois et afficher des comparaisons bilingues. La qualité de la traduction est également assez bonne.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Feishu Miaoji a réussi à reconnaître le nom de Larry Page, mais tout comme lors de l'écoute, il y a eu quelques erreurs mineures dues à la vitesse de parole globale de Musk et à ses expressions familières, telles que Au lieu de "rester chez lui", écrivez "dis cette maison". .

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

iFlytek a entendu cela et a bien géré les noms et les détails de prononciation. Cependant, il existe également des cas où les expressions familières de Musk ont été induites en erreur, comme par exemple en confondant « longtemps dans la soirée » avec « l'envie du soir ».

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Il semble qu'en termes de capacités de base de reconnaissance vocale, les outils d'IA aient atteint un taux de précision très élevé face à une efficacité extrêmement élevée, certains petits problèmes ont déjà été éliminés.

Ensuite, nous augmenterons le niveau de difficulté au tour 2 pour tester leur capacité à résumer des vidéos d'une durée d'environ une heure.

La vidéo test est une table ronde de 40 minutes ayant pour thème les nouvelles opportunités pour l'AIGC en Chine. Au total, 5 personnes ont participé à la table ronde.

Côté écoute, il a fallu moins de 5 minutes au total depuis la réalisation de la transcription à l'IA pour extraire les mots-clés et fournir un résumé en texte intégral.

Le résultat est celui de tante Jiang :

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Non seulement les mots-clés ont été donnés, mais le contenu de la table ronde a également été bien résumé et les points clés de la vidéo ont également été divisés.

En comparant les points de sujet extraits par les éditeurs humains, j'ai senti un soupçon de crise...

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Il convient de mentionner que pour les discours des différents invités, Listening peut fournir un résumé correspondant des discours.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

La même question a été posée à Feishu Miaoji. Actuellement, en termes de résumé du contenu, Feishu Miaoji ne peut fournir que des mots-clés.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Les procès-verbaux des réunions doivent être marqués manuellement sur le texte transcrit.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

iFlytek a entendu dire qu'ils testaient en interne un produit basé sur le Spark Cognitive Large Model, qui peut analyser le contenu des fichiers, mais nécessite de remplir une demande et de faire la queue. (Les amis qualifiés pour les tests internes sont invités à partager leurs expériences ~)

Dans iFlytek de base, il n'existe actuellement aucune fonction de résumé similaire.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Cette série de tests ressemble à ceci :

Cependant, dans ce test actuel, la chose la plus surprenante à propos de Tongyi Tingwu est en fait un "petit" design :

Fonction de plug-in Chrome.

Que vous regardiez des vidéos en anglais, regardiez des émissions en direct ou assistiez à des réunions en classe, vous pouvez réaliser une transcription et une traduction en temps réel de l'audio et de la vidéo en cliquant sur le plug-in d'écoute.

Comme indiqué au début, il peut être utilisé comme sous-titres en temps réel, avec une faible latence, une traduction rapide et une fonction de comparaison bilingue. En même temps, l'enregistrement et le texte transcrit peuvent être enregistrés en un seul clic pour une utilisation ultérieure.

Maman n'a plus à s'inquiéter du fait que je ne puisse pas lire le matériel vidéo en anglais.

De plus, j'ai une idée audacieuse...

Activez l'écoute lors de la tenue d'une réunion de groupe, pour ne plus avoir à craindre d'être soudainement contrôlé par le moniteur.

Actuellement, Tingwu est connecté à Alibaba Cloud Disk. Le contenu audio et vidéo stocké sur le disque cloud peut être transcrit en un seul clic et les sous-titres peuvent être automatiquement affichés lors de la lecture de vidéos sur le disque cloud en ligne. Les fichiers audio et vidéo traités par l'IA pourront à l'avenir être rapidement partagés en interne dans la version entreprise.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Le responsable de Hengwu a également révélé qu'à l'avenir, Hengwu continuera d'ajouter de nouvelles fonctionnalités de grands modèles, telles que l'extraction directe de captures d'écran PPT à partir de vidéos et la pose directe de questions à l'IA sur le contenu audio et vidéo...

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

La clé est que les avantages de la version bêta publique sont désormais accessibles à tout le monde. Vous pouvez automatiquement obtenir 2 heures de temps de transcription en vous connectant chaque jour à Weibo, WeChat et officiel d'Alibaba Cloud. Les principales communautés de plates-formes distribueront également un grand nombre de 20 heures de codes de mot de passe transcrits, et la durée peut être empilée, valable dans un délai d'un an.

En tant que maître de laine assidu, ce n'est pas un rêve de gagner plus de 100 heures de temps libre (tête de chien manuelle).

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

La technologie derrière : grand modèle de langage + voix SOTA

En fait, avant la version bêta publique, Tongyi Listening avait été soigneusement peaufiné au sein d'Alibaba.

À la fin de l'année dernière, certains lecteurs de Qubit ont obtenu la Listening Internal Beta Experience Card. La version à l'époque incluait déjà des fonctions de transcription voix/vidéo hors ligne et de transcription en temps réel.

Dans cette bêta ouverte, Tingwu a principalement accès aux capacités de résumé et de dialogue du grand modèle Tongyi Qianwen. Plus précisément, ce travail s'appuie sur le grand modèle Tongyi Qianwen, intégrant les résultats de recherche de l'équipe de recherche en matière de raisonnement, d'alignement et de réponse aux questions conversationnelles.

Tout d'abord, la manière d'extraire avec précision les informations clés est la clé pour améliorer l'efficacité du travail avec ce type d'artefact. Cela nécessite les capacités de raisonnement des grands modèles.

L'équipe Alibaba AI a proposé Proton (Probing Turning from Large Language Models), un cadre de détection des connaissances et d'utilisation du raisonnement basé sur de grands modèles de langage en 2022. L'article correspondant sera publié lors de conférences internationales de premier plan telles que KDD2022 et SIGIR2023.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

L'idée centrale de ce framework est de détecter les connaissances internes des grands modèles et d'utiliser la chaîne de réflexion comme support pour le flux et l'utilisation des connaissances.

Proton s'est classé premier dans les trois listes principales de Commonsense QA2.0, Physical Commonsense Reasoning PIQA et Numerical Commonsense Reasoning Numbersense.

Sur la liste TabFact (vérification des faits), Proton a obtenu pour la première fois des résultats surhumains grâce à sa décomposition des connaissances et à sa technologie de chaîne de pensée fiable.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Deuxièmement, afin de garantir que le contenu et le format du résumé répondent aux attentes des utilisateurs, en termes d'alignement, Listening utilise également ELHF, une méthode d'alignement efficace basée sur le feedback humain.

Cette méthode ne nécessite qu'un petit nombre d'échantillons de commentaires manuels de haute qualité pour réaliser l'alignement. Dans l'évaluation subjective des effets du modèle, ELHF peut augmenter le taux de réussite du modèle de 20 %.

De plus, l'équipe R&D derrière Wu a également publié Doc2Bot, un ensemble de données de conversation de documents chinois à très grande échelle. La méthode Re3G de l'équipe pour améliorer les capacités de réponse aux questions du modèle a été sélectionnée pour ICASSP 2023 : cette méthode peut améliorer la réponse du modèle aux questions des utilisateurs à travers quatre étapes : Récupérer (récupération), Reclasser (reclassement), Affiner (réglage fin) et Générer. (génération). Ses capacités de compréhension, de récupération de connaissances et de génération de réponses se classent au premier rang des deux principales listes de dialogue de documents de Doc2Dial et Multi Doc2Dial.

En plus des capacités de grands modèles, Tingwu est également le maître de la technologie vocale d'Alibaba.

Le modèle de reconnaissance vocale Paraformer, de l'Alibaba Damo Academy, résout pour la première fois le problème de l'équilibre entre l'effet de reconnaissance de bout en bout et l'efficacité au niveau des applications industrielles :

Il améliore non seulement l'efficacité du raisonnement de 10 fois. par rapport aux modèles traditionnels , et a également battu les records de nombreux ensembles de données faisant autorité lors de son premier lancement, rafraîchissant la précision de la reconnaissance vocale SOTA. Dans le test de boîte blanche SpeechIO TIOBE d'évaluation de la reconnaissance vocale chinoise sur un réseau complet de cloud public professionnel tiers, Paraformer-large est toujours le modèle de reconnaissance vocale chinois avec la plus grande précision.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Paraformer est un modèle non autorégressif à un seul tour, qui se compose de cinq parties : encodeur, prédicteur, échantillonneur, décodeur et fonction de perte.

Grâce à la conception innovante du prédicteur, Paraformer réalise une prédiction précise du nombre de mots cibles et des variables acoustiques latentes correspondantes.

En outre, les chercheurs ont également introduit l'idée du modèle de langage de navigation (GLM) dans le domaine de la traduction automatique, conçu un échantillonneur basé sur GLM et amélioré la modélisation de la sémantique contextuelle du modèle.

Dans le même temps, Paraformer a également utilisé des dizaines de milliers d'heures de formation sur des ensembles de données industrielles à très grande échelle couvrant des scénarios riches pour améliorer encore la précision de la reconnaissance.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

L'identification précise des locuteurs dans les discussions à plusieurs bénéficie du modèle de base de reconnaissance des locuteurs CAM++ de DAMO Academy. Ce modèle utilise un réseau à retard D-TDNN basé sur des connexions denses. L'entrée de chaque couche est épissée à partir de la sortie de toutes les couches précédentes. Ce multiplexage hiérarchique et la convolution unidimensionnelle du réseau à retard peuvent améliorer considérablement l'efficacité de calcul de. le réseau.

Sur les principaux ensembles de tests chinois et anglais du secteur, VoxCeleb et CN-Celeb, CAM++ a actualisé le meilleur taux de précision.

阿里云大模型上新！AI神器「通义听悟」公测中：长视频一秒总结，还能自动做笔记、翻字幕 | 羊毛可薅

Ouverture des grands modèles, les utilisateurs en profitent

Selon le rapport de l'Institut chinois de l'information scientifique et technologique, selon des statistiques incomplètes, 79 grands modèles ont été commercialisés en Chine.

Dans le cadre de cette tendance au développement de modèles à grande échelle, la vitesse d'évolution des applications d'IA est à nouveau entrée dans une phase de sprint.

Du point de vue des utilisateurs, une situation bienvenue se dessine progressivement :

Sous la « coordination » de grands modèles, diverses technologies d'IA commencent à fleurir côté application, rendant les outils de plus en plus efficaces et intelligents.

Des documents intelligents qui peuvent vous aider à rédiger automatiquement un plan de travail avec une barre oblique, aux outils d'enregistrement et d'analyse audio et vidéo qui vous aident à résumer rapidement les éléments, l'étincelle de l'AGI, les grands modèles génératifs, fait que de plus en plus de gens se sentent la magie de l'IA.

Dans le même temps, pour les entreprises technologiques, de nouveaux défis et de nouvelles opportunités sont sans aucun doute apparus.

L'enjeu est que tous les produits seront balayés par la tempête des grands modèles, et l'innovation technologique est devenue un enjeu incontournable.

La structure du marché existante a atteint un moment opportun pour la réécrire pour de nouvelles applications révolutionnaires. Qui pourra prendre les devants dépendra de celui qui est le mieux préparé techniquement et dont la technologie évolue plus rapidement.

Quoi qu’il en soit, le développement technique profitera en fin de compte aux utilisateurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!