Maison > Périphériques technologiques > IA > ChatGPT qui peut comprendre la parole est là : 10 heures d'enregistrement ajoutées, demandez ce que vous voulez

ChatGPT qui peut comprendre la parole est là : 10 heures d'enregistrement ajoutées, demandez ce que vous voulez

王林
Libérer: 2023-06-03 14:05:32
avant
1057 Les gens l'ont consulté

Les grands modèles linguistiques (LLM) changent les attentes des utilisateurs dans tous les secteurs. Cependant, la création de produits d’IA générative centrés sur la parole humaine reste difficile car les fichiers audio posent un défi aux grands modèles de langage.


Un défi clé dans l'application de LLM aux fichiers audio est que LLM est limité par sa fenêtre contextuelle. Avant qu'un fichier audio puisse être introduit dans LLM, il doit être converti en texte. Plus le fichier audio est long, plus le défi technique consistant à contourner les limitations de la fenêtre contextuelle de LLM est grand. Mais dans des scénarios de travail, nous avons souvent besoin du LLM pour nous aider à traiter des fichiers vocaux très longs, comme extraire le contenu principal d'un enregistrement de réunion de plusieurs heures, ou trouver la réponse à une certaine question lors d'un entretien...

Récemment, AssemblyAI, société d’IA de reconnaissance vocale, a lancé un nouveau modèle appelé LeMUR. Tout comme ChatGPT traite des dizaines de pages de texte PDF, LeMUR peut transcrire et traiter jusqu'à 10 heures d'enregistrements, puis aider les utilisateurs à résumer le contenu principal du discours et à répondre aux questions saisies par l'utilisateur.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Adresse d'essai : https://www.assemblyai.com/playground/v2/source

LeMUR exploite de grands modèles de langage pour comprendre la parole reconnue (en utilisant de grands modèles de langage pour comprendre Recognized Speech) est un nouveau cadre qui applique un LLM puissant à la parole transcrite. Avec une seule ligne de code (via le SDK Python d'AssemblyAI), LeMUR peut traiter rapidement la transcription de jusqu'à 10 heures de contenu audio, le convertissant efficacement en environ 150 000 jetons. En revanche, les LLM vanille disponibles dans le commerce ne peuvent accueillir que jusqu'à 8K, soit environ 45 minutes d'audio transcrit dans les contraintes de leur fenêtre contextuelle.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Afin de réduire la complexité de l'application du LLM aux fichiers audio transcrits, le pipeline de LeMUR comprend principalement une segmentation intelligente, une base de données vectorielles rapide et plusieurs étapes de raisonnement (telles que des invites de chaîne de pensée et une auto-évaluation), comme indiqué ci-dessous :

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Figure 1 : L'architecture de LeMUR permet aux utilisateurs d'envoyer des fichiers de transcription audio longs et/ou multiples dans LLM avec un seul appel API.

À l'avenir, LeMUR devrait être largement utilisé dans le service client et dans d'autres domaines.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

LeMUR ouvre de nouvelles possibilités étonnantes que je ne pensais pas possibles il y a quelques années à peine. C'est vraiment incroyable de pouvoir extraire sans effort des informations précieuses, telles que la détermination de la meilleure action et la discernement des résultats d'un appel, tels que les ventes, les rendez-vous ou l'objet de l'appel. —— Ryan Johnson, directeur des produits chez CallRail, une société de technologie de services de suivi et d'analyse des appels

Quelles possibilités LeMUR ouvre-t-il ?

Appliquer LLM à plusieurs textes audio

LeMUR permet aux utilisateurs d'obtenir des commentaires sur le traitement LLM sur plusieurs fichiers audio en même temps, ainsi que jusqu'à 10 heures de résultats de transcription vocale et la longueur du texte converti. jeton Jusqu'à 150K.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Sortie fiable et sécurisée

Étant donné que LeMUR inclut des mesures de sécurité et des filtres de contenu, il fournira aux utilisateurs des réponses de LLM qui sont moins susceptibles d'être nuisibles ou biaisées.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Contexte supplémentaire

Pendant l'inférence, il permet d'ajouter des informations contextuelles supplémentaires que LLM peut exploiter pour fournir des résultats personnalisés et plus précis lors de la génération de sortie.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Intégration modulaire et rapide

LeMUR renvoie toujours des données structurées sous une forme JSON traitable. Les utilisateurs peuvent personnaliser davantage le format de sortie de LeMUR pour garantir que la réponse donnée par le LLM est dans le format attendu par leur prochain élément de logique métier (par exemple, convertir la réponse en une valeur booléenne). Dans ce processus, les utilisateurs n'ont plus besoin d'écrire du code spécifique pour traiter la sortie de LLM.

Résultats des essais

Selon le lien de test fourni par AssemblyAI, Machine Heart a testé LeMUR.

L'interface de LeMUR prend en charge deux méthodes de saisie de fichiers : le téléchargement de fichiers audio et vidéo ou le collage de liens Web.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Nous utilisons les données d'une interview récente de Hinton comme entrée pour tester les performances de LeMUR.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Après le téléchargement, le système nous demande d'attendre un moment car il doit d'abord convertir la parole en texte.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

L'interface après transcription est la suivante :

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Sur le côté droit de la page, on peut demander à LeMUR de résumer l'interview ou de répondre à des questions. LeMUR peut fondamentalement accomplir la tâche facilement :

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Si la voix à traiter est un discours ou une réponse du service client, vous pouvez également demander à LeMUR des suggestions d'amélioration.

ChatGPT qui peut comprendre la parole est là : 10 heures denregistrement ajoutées, demandez ce que vous voulez

Cependant, LeMUR ne semble pas encore prendre en charge le chinois. Les lecteurs intéressés peuvent l’essayer.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:51cto.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal