Ximalaya résout le problème du chevauchement de la parole et remporte la première place lors d'une conférence internationale visant à accélérer l'innovation en matière d'IA-IA-php.cn

Maison

Ximalaya résout le problème du chevauchement de la parole et remporte la première place lors d'une conférence internationale visant à accélérer l'innovation en matière d'IA

王林

Jul 07, 2023 pm 03:42 PM

Ximalaya surmonte le problème du chevauchement de la parole et remporte la première place au International Conference Challenge, accélérant ainsi l'innovation en matière d'IA

Récemment, le défi de transcription de conférence multicanal multipartite (M2MeT2.0) de la conférence internationale de premier plan ASRU 2023 (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) s'est terminé avec succès, et l'Everest de l'Himalaya Le laboratoire a obtenu des résultats exceptionnels. A remporté le titre de champion.

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

Le symposium ASRU est l'événement technique phare du comité technique sur le traitement de la parole et du langage (SLTC) de l'IEEE, qui se tient tous les deux ans et rassemble les meilleurs experts et chercheurs du monde universitaire et de l'industrie pour discuter d'un large éventail de problèmes de reconnaissance et de compréhension de la parole. Le Challenge M2MeT2.0 est un concours clé de l'ASRU en 2023. Son objectif est de résoudre le problème de la transcription vocale superposée dans les salles de conférence hors ligne. En tant que « scène de cocktail » typique où de nombreuses personnes parlent librement, la scène de réunion a toujours été une difficulté et un point central dans le domaine de la reconnaissance vocale. Elle revêt une grande importance pour développer l'intelligence artificielle vocale pour les scènes de réunion et explorer des solutions de niveau industriel. aux problèmes connexes.

Il est à noter que ce n’est pas la première fois qu’Himalaya participe au M2MeT Challenge de l’ASRU. Lors du premier défi M2MeT, Ximalaya a coopéré avec l'Université des sciences et technologies de Chine et a remporté la troisième place dans la catégorie des conférenciers, avec un taux d'erreur de seulement 4,05 %. Dans le défi inaugural, l'évaluation utilise le taux d'erreur sur les caractères (CER) comme mesure et seul l'audio est transcrit en texte sans tenir compte des étiquettes des locuteurs. Basé sur le succès de la première session, le défi M2MeT2.0 se concentrera sur l'évaluation liée au locuteur, promouvra la mise en pratique des systèmes de reconnaissance vocale multi-locuteurs et mettra en place deux sous-pistes, données limitées et données non qualifiées.

Afin de relever ce défi, l'Himalayan Everest Laboratory est parti du cadre de base de la reconnaissance vocale et a lancé une exploration technique de la technologie de détection d'alias de la parole et de la technologie d'enregistrement du locuteur. Ximalaya a obtenu d'excellents résultats de première place dans les sous-pistes d'ensemble de données limitées et d'ensemble de données ouvertes du défi M2MeT2.0.

L'ensemble de données du défi M2MeT2.0 de cette année contient des données réelles, multi-scénarios et multimodales à grande échelle, couvrant une variété de salles de conférence de différentes tailles et configurations, simulant divers meubles, des réunions régulières avec différents thèmes et divers bruits intérieurs. . Ces sons qui se chevauchent, tels que les voix humaines, les sons de la télévision, les sons des ventilateurs et des climatiseurs, les sons du clavier, les sons d'ouverture/fermeture des portes, les sons de bulles, etc., augmentent la difficulté du jeu. En utilisant simultanément un réseau de microphones pour enregistrer les sons distants et un microphone-casque pour enregistrer les sons proches, une transcription précise du discours de l'orateur correspondant est assurée. Cet ensemble de données revêt une grande importance académique pour l'étude des problèmes de reconnaissance vocale multi-locuteurs et de chevauchement de la parole, et fournit des ressources de données réelles et diverses pour trouver des solutions au niveau industriel.

Tous les locuteurs de l'ensemble de données du défi M2MeT2.0 sont des locuteurs natifs du chinois. Himalaya y participe activement à travers une combinaison d'industries, d'universités et de recherche, et s'engage à contribuer au développement de la technologie de reconnaissance vocale locale en Chine. Dans le cadre du défi M2MeT2.0, Himalaya a démontré une excellente technologie de reconnaissance du locuteur et de la parole (ASR) et a démontré d'excellentes performances. Son équipe du laboratoire Everest a utilisé des modules de reconnaissance du locuteur, d'amélioration de la parole et de reconnaissance vocale développés par elle-même. Grâce à l'optimisation et à l'expérience, des avancées significatives ont été réalisées. réalisés dans des environnements de chevauchement de parole et à plusieurs locuteurs. En combinant des modèles d'apprentissage profond et de réseaux neuronaux, l'Himalayan Everest Laboratory est capable de transcrire, d'identifier et de séparer avec précision le discours de plusieurs locuteurs en temps réel.

Les technologies liées à Ximalaya ont non seulement été vérifiées dans le cadre du défi ASRU 2023 M2MeT2.0, mais ont également été appliquées et renforcées dans la production de contenu Ximalaya AIGC. Actuellement, la technologie de reconnaissance automatique de la parole (ASR) de Ximalaya a été largement utilisée dans la fonction de script AI de l'application Ximalaya. Elle transcrit le contenu vocal sans scripts dans la plate-forme Himalaya et génère le texte correspondant, permettant ainsi aux auditeurs de mieux comprendre. comprendre le contenu de la voix. Dans le même temps, pour le contenu sonore du manuscrit original, la fonction de manuscrit AI de Ximalaya utilise une technologie d'alignement audio et texte ultra-longue pour horodater le son et le manuscrit afin d'obtenir une mise en évidence synchrone de la lecture sonore et du texte correspondant, permettant aux utilisateurs de Il est plus pratique de profiter de l’expérience de consommation de contenu en écoutant et en regardant en même temps.

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

En plus de la technologie ASR, la technologie TTS (synthèse vocale) d'Himalaya est également à la pointe de l'industrie et a été largement utilisée dans la production de récits, d'actualités, de romans et d'autres contenus. Himalaya a intégré son module d'extraction de rythme indépendant conçu de manière indépendante. into HiTTS Le cadre technique reproduit parfaitement la "voix" de Shan Tianfang. Selon les rapports, Ximalaya a lancé plus de 100 albums synthétisés par les sons synthétisés par l'IA de Shan Tianfang, et le volume de lecture cumulé a dépassé 100 millions de fois.

Depuis de nombreuses années, Himalaya mène des recherches approfondies dans le domaine de la technologie vocale de l'IA. Son laboratoire Everest se concentre depuis longtemps sur la recherche et l'innovation dans les domaines de la synthèse vocale, de l'analyse des émotions, de la reconnaissance vocale et d'autres domaines. En participant au Challenge ASRU 2023 M2MeT2.0 et en remportant le championnat, Himalaya a encore consolidé sa position de leader dans le domaine de la technologie vocale et démontré son excellente capacité à résoudre des scénarios vocaux complexes.

En tant que plate-forme audio en ligne appréciée des utilisateurs, Himalaya a toujours adhéré au concept de responsabilisation de la culture grâce à la technologie, intégrant constamment la technologie aux créateurs et aux utilisateurs pour améliorer l'efficacité de la production de contenu et offrir une excellente expérience de contenu. Ximalaya continuera également à combiner une technologie vocale avancée et intelligente avec le son grâce à l'autonomisation technologique et à l'intégration de l'industrie, du monde universitaire et de la recherche, afin de fournir aux utilisateurs d'excellents produits et services de technologie vocale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7682

Tutoriel Java

1639

Tutoriel CakePHP

1393

Tutoriel Laravel

1286

Tutoriel PHP

1229

Afficher plus

Related knowledge

Meilleurs générateurs d'art AI (gratuit & amp; payé) pour des projets créatifs Apr 02, 2025 pm 06:10 PM

L'article passe en revue les meilleurs générateurs d'art AI, discutant de leurs fonctionnalités, de leur aptitude aux projets créatifs et de la valeur. Il met en évidence MidJourney comme la meilleure valeur pour les professionnels et recommande Dall-E 2 pour un art personnalisable de haute qualité.

Chatgpt 4 o est-il disponible? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 est actuellement disponible et largement utilisé, démontrant des améliorations significatives dans la compréhension du contexte et la génération de réponses cohérentes par rapport à ses prédécesseurs comme Chatgpt 3.5. Les développements futurs peuvent inclure un interg plus personnalisé

Début avec Meta Llama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

META'S LLAMA 3.2: un bond en avant dans l'IA multimodal et mobile Meta a récemment dévoilé Llama 3.2, une progression importante de l'IA avec de puissantes capacités de vision et des modèles de texte légers optimisés pour les appareils mobiles. S'appuyer sur le succès o

Meilleurs chatbots AI comparés (Chatgpt, Gemini, Claude & amp; plus) Apr 02, 2025 pm 06:09 PM

L'article compare les meilleurs chatbots d'IA comme Chatgpt, Gemini et Claude, en se concentrant sur leurs fonctionnalités uniques, leurs options de personnalisation et leurs performances dans le traitement et la fiabilité du langage naturel.

Assistants d'écriture de l'IA pour augmenter votre création de contenu Apr 02, 2025 pm 06:11 PM

L'article traite des meilleurs assistants d'écriture d'IA comme Grammarly, Jasper, Copy.ai, WireSonic et Rytr, en se concentrant sur leurs fonctionnalités uniques pour la création de contenu. Il soutient que Jasper excelle dans l'optimisation du référencement, tandis que les outils d'IA aident à maintenir le ton

Top 7 Système de chiffon agentique pour construire des agents d'IA Mar 31, 2025 pm 04:25 PM

2024 a été témoin d'un simple passage de l'utilisation des LLM pour la génération de contenu pour comprendre leur fonctionnement intérieur. Cette exploration a conduit à la découverte des agents de l'IA - les systèmes autonomes manipulant des tâches et des décisions avec une intervention humaine minimale. Construire

Comment accéder à Falcon 3? - Analytique Vidhya Mar 31, 2025 pm 04:41 PM

Falcon 3: un modèle révolutionnaire de grande langue open source Falcon 3, la dernière itération de la célèbre série Falcon de LLMS, représente une progression importante de la technologie de l'IA. Développé par le Technology Innovation Institute (TII), cet ouvert

Choisir le meilleur générateur de voix d'IA: les meilleures options examinées Apr 02, 2025 pm 06:12 PM

L'article examine les meilleurs générateurs de voix d'IA comme Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson et Descript, en se concentrant sur leurs fonctionnalités, leur qualité vocale et leur aptitude à différents besoins.

See all articles