Ximalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird-KI-php.cn

Heim

Ximalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird

王林

Jul 07, 2023 pm 03:42 PM

Ximalaya durchbricht das Problem der Sprachüberlappung und gewinnt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird

Kürzlich endete die Multi-Channel-Multi-Party-Conference-Transcription-Challenge (M2MeT2.0) der internationalen Top-Sprachkonferenz ASRU (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) 2023 und der Himalayan Everest erfolgreich Das Labor hat hervorragende Ergebnisse erzielt.

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

Das ASRU-Symposium ist die wichtigste technische Veranstaltung des IEEE Speech and Language Processing Technical Committee (SLTC), die alle zwei Jahre stattfindet und Spitzenexperten und Forscher aus Wissenschaft und Industrie zusammenbringt, um ein breites Spektrum an Fragen der Spracherkennung und des Sprachverständnisses zu diskutieren. Die M2MeT2.0 Challenge ist ein wichtiger Wettbewerb der ASRU im Jahr 2023. Ihr Ziel ist es, das Problem der überlappenden Sprachtranskription in Offline-Konferenzräumen zu lösen. Als typische „Cocktailparty-Szene“, in der viele Menschen frei reden, war die Meeting-Szene schon immer eine Schwierigkeit und ein Schwerpunkt im Bereich der Spracherkennung. Sie ist von großer Bedeutung für die Entwicklung sprachlicher künstlicher Intelligenz für Meeting-Szenen und die Erforschung von Lösungen auf industrieller Ebene auf verwandte Probleme.

Es ist erwähnenswert, dass dies nicht das erste Mal ist, dass Himalaya an der M2MeT Challenge von ASRU teilnimmt. Bei der ersten M2MeT Challenge kooperierte Ximalaya mit der University of Science and Technology of China und gewann den dritten Platz im Speaker-Log-Track und erreichte eine Log-Fehlerrate von nur 4,05 %. Bei der ersten Herausforderung verwendete die Evaluierung die Zeichenfehlerrate (CER) als Messgröße und transkribierte nur Audio in Text, ohne Sprecherbezeichnungen zu berücksichtigen. Basierend auf dem Erfolg der ersten Sitzung wird sich die M2MeT2.0 Challenge auf die sprecherbezogene Bewertung konzentrieren, die praktische Umsetzung von Spracherkennungssystemen für mehrere Sprecher fördern und zwei Unterspuren einrichten: begrenzte Daten und unqualifizierte Daten.

Um dieser Herausforderung zu begegnen, begann das Himalayan Everest Laboratory mit dem Grundgerüst der Spracherkennung und startete technische Untersuchungen in der Aliasing-Spracherkennungstechnologie und der Sprecherprotokollierungstechnologie. Ximalaya erzielte sowohl im begrenzten Datensatz als auch im offenen Datensatz der M2MeT2.0 Challenge hervorragende Ergebnisse auf dem ersten Platz.

Der diesjährige M2MeT2.0 Challenge-Datensatz enthält reale, multiszenario- und multimodale Großdaten, die eine Vielzahl von Konferenzräumen unterschiedlicher Größe und Aufteilung abdecken, verschiedene Möbel, regelmäßige Treffen mit unterschiedlichen Themen und verschiedene Innengeräusche simulieren . Diese überlappenden Geräusche wie menschliche Stimmen, Fernsehgeräusche, Geräusche von Ventilatoren und Klimaanlagen, Tastaturgeräusche, Geräusche beim Öffnen/Schließen von Türen, Blasengeräusche usw. erhöhen den Schwierigkeitsgrad des Spiels. Durch die gleichzeitige Verwendung eines Mikrofonarrays zur Aufnahme von entfernten Geräuschen und eines Headset-Mikrofons zur Aufnahme von nahen Geräuschen wird eine genaue Transkription der Sprache des entsprechenden Sprechers gewährleistet. Dieser Datensatz ist von großer akademischer Bedeutung für die Untersuchung von Spracherkennungs- und Sprachüberlappungsproblemen bei mehreren Sprechern und stellt reale und vielfältige Datenressourcen für die Suche nach Lösungen auf industrieller Ebene bereit.

Alle Sprecher im M2MeT2.0 Challenge-Datensatz sind chinesische Muttersprachler. Himalaya beteiligt sich aktiv durch eine Kombination aus Industrie, Wissenschaft und Forschung und engagiert sich für die Entwicklung der lokalen Spracherkennungstechnologie in China. Bei der M2MeT2.0 Challenge demonstrierte Himalaya eine hervorragende Sprecher- und Spracherkennungstechnologie (ASR) und demonstrierte eine hervorragende Leistung. Das Team des Everest Laboratory nutzte selbst entwickelte Sprechererkennungs-, Sprachverbesserungs- und Spracherkennungsmodule, um mit Optimierung und Erfahrung bedeutende Durchbrüche zu erzielen in Sprachüberschneidungen und Umgebungen mit mehreren Sprechern erstellt. Durch die Kombination von Deep-Learning- und neuronalen Netzwerkmodellen ist das Himalayan Everest Laboratory in der Lage, die Sprache mehrerer Sprecher in Echtzeit zu transkribieren und genau zu identifizieren und zu trennen.

Ximalaya-bezogene Technologien wurden nicht nur bei der ASRU 2023 M2MeT2.0 Challenge verifiziert, sondern auch bei der Ximalaya AIGC-Inhaltsproduktion eingesetzt und gestärkt. Derzeit wird die Ximalaya Automatic Speech Recognition (ASR)-Technologie häufig in der KI-Skriptfunktion der Ximalaya-App verwendet. Sie transkribiert den Sprachinhalt ohne Skripte in der Himalaya-Plattform und gibt den entsprechenden Text aus, wodurch es für Zuhörer einfacher wird, besser zu sprechen den Sprachinhalt verstehen. Gleichzeitig nutzt die KI-Manuskriptfunktion von Es ist bequemer, das Erlebnis des Inhaltskonsums durch gleichzeitiges Zuhören und Ansehen zu genießen.

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

Neben der ASR-Technologie ist auch die TTS-Technologie (Sprachsynthese) von Himalaya führend in der Branche und wird häufig bei der Produktion von Geschichten, Nachrichten, Romanen und anderen Inhalten eingesetzt. Himalaya hat sein unabhängig entwickeltes unabhängiges Rhythmus-Extraktionsmodul integriert in HiTTS Das technische Framework reproduziert perfekt Shan Tianfangs „Stimme“. Berichten zufolge hat Ximalaya mehr als 100 Alben herausgebracht, die mit Shan Tianfangs KI-synthetisierten Klängen synthetisiert wurden, und die kumulierte Wiedergabelautstärke hat das 100-Millionen-fache überschritten.

Himalaya betreibt seit vielen Jahren intensive Forschung auf dem Gebiet der KI-Sprachtechnologie. Sein Everest-Labor konzentriert sich seit langem auf Forschung und Innovation in den Bereichen Sprachsynthese, Emotionsanalyse, Spracherkennung und anderen Bereichen. Durch die Teilnahme an der ASRU 2023 M2MeT2.0 Challenge und den Gewinn der Meisterschaft festigte Himalaya seine führende Position im Bereich der Sprachtechnologie weiter und demonstrierte seine hervorragende Fähigkeit, komplexe Sprachszenarien zu lösen.

Als von den Nutzern geliebte Online-Audioplattform verfolgt Himalaya seit jeher das Konzept, die Kultur durch Technologie zu stärken und Technologie kontinuierlich mit Erstellern und Nutzern zu integrieren, um die Effizienz der Inhaltsproduktion zu verbessern und ein hervorragendes Inhaltserlebnis zu bieten. Ximalaya wird auch weiterhin fortschrittliche und intelligente Sprachtechnologie mit Ton durch technologische Stärkung und die Integration von Industrie, Wissenschaft und Forschung kombinieren, um Benutzern hervorragende Produkte und Dienstleistungen im Bereich Sprachtechnologie anzubieten.

Das obige ist der detaillierte Inhalt vonXimalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

4 Wochen vor By DDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7666

CakePHP-Tutorial

1393

C#-Tutorial

1205

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

Related knowledge

Beste KI -Kunstgeneratoren (kostenlos & amp; bezahlt) für kreative Projekte Apr 02, 2025 pm 06:10 PM

Der Artikel überprüft Top -KI -Kunstgeneratoren, diskutiert ihre Funktionen, Eignung für kreative Projekte und Wert. Es zeigt MidJourney als den besten Wert für Fachkräfte und empfiehlt Dall-E 2 für hochwertige, anpassbare Kunst.

Ist Chatgpt 4 o verfügbar? Mar 28, 2025 pm 05:29 PM

Chatgpt 4 ist derzeit verfügbar und weit verbreitet, wodurch im Vergleich zu seinen Vorgängern wie ChatGPT 3.5 signifikante Verbesserungen beim Verständnis des Kontextes und des Generierens kohärenter Antworten zeigt. Zukünftige Entwicklungen können mehr personalisierte Inters umfassen

Erste Schritte mit Meta Lama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

Beste AI -Chatbots verglichen (Chatgpt, Gemini, Claude & amp; mehr) Apr 02, 2025 pm 06:09 PM

Der Artikel vergleicht Top -KI -Chatbots wie Chatgpt, Gemini und Claude und konzentriert sich auf ihre einzigartigen Funktionen, Anpassungsoptionen und Leistung in der Verarbeitung und Zuverlässigkeit natürlicher Sprache.

Top -KI -Schreibassistenten, um Ihre Inhaltserstellung zu steigern Apr 02, 2025 pm 06:11 PM

In dem Artikel werden Top -KI -Schreibassistenten wie Grammarly, Jasper, Copy.ai, Writesonic und RYTR erläutert und sich auf ihre einzigartigen Funktionen für die Erstellung von Inhalten konzentrieren. Es wird argumentiert, dass Jasper in der SEO -Optimierung auszeichnet, während KI -Tools dazu beitragen, den Ton zu erhalten

Wie kann ich Falcon 3 zugreifen? - Analytics Vidhya Mar 31, 2025 pm 04:41 PM

Falcon 3: Ein revolutionäres Open-Source-Großsprachmodell Falcon 3, die neueste Iteration in der gefeierten Falcon -Serie von LLMs, stellt einen erheblichen Fortschritt in der AI -Technologie dar. Entwickelt vom Technology Innovation Institute (TII), diesem offen

Auswahl des besten KI -Sprachgenerators: Top -Optionen überprüft Apr 02, 2025 pm 06:12 PM

Der Artikel überprüft Top -KI -Sprachgeneratoren wie Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson und Descript, wobei sie sich auf ihre Funktionen, die Sprachqualität und die Eignung für verschiedene Anforderungen konzentrieren.

Top 7 Agentenlagersystem zum Aufbau von KI -Agenten Mar 31, 2025 pm 04:25 PM

2024 veränderte sich von einfacher Verwendung von LLMs für die Erzeugung von Inhalten zum Verständnis ihrer inneren Funktionsweise. Diese Erkundung führte zur Entdeckung von AI -Agenten - autonome Systeme zur Handhabung von Aufgaben und Entscheidungen mit minimalem menschlichen Eingreifen. Bauen

See all articles