Ximalaya durchbricht das Problem der Sprachüberlappung und gewinnt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird
Kürzlich endete die Multi-Channel-Multi-Party-Conference-Transcription-Challenge (M2MeT2.0) der internationalen Top-Sprachkonferenz ASRU (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) 2023 und der Himalayan Everest erfolgreich Das Labor hat hervorragende Ergebnisse erzielt.
Es ist erwähnenswert, dass dies nicht das erste Mal ist, dass Himalaya an der M2MeT Challenge von ASRU teilnimmt. Bei der ersten M2MeT Challenge kooperierte Ximalaya mit der University of Science and Technology of China und gewann den dritten Platz im Speaker-Log-Track und erreichte eine Log-Fehlerrate von nur 4,05 %. Bei der ersten Herausforderung verwendete die Evaluierung die Zeichenfehlerrate (CER) als Messgröße und transkribierte nur Audio in Text, ohne Sprecherbezeichnungen zu berücksichtigen. Basierend auf dem Erfolg der ersten Sitzung wird sich die M2MeT2.0 Challenge auf die sprecherbezogene Bewertung konzentrieren, die praktische Umsetzung von Spracherkennungssystemen für mehrere Sprecher fördern und zwei Unterspuren einrichten: begrenzte Daten und unqualifizierte Daten.
Um dieser Herausforderung zu begegnen, begann das Himalayan Everest Laboratory mit dem Grundgerüst der Spracherkennung und startete technische Untersuchungen in der Aliasing-Spracherkennungstechnologie und der Sprecherprotokollierungstechnologie. Ximalaya erzielte sowohl im begrenzten Datensatz als auch im offenen Datensatz der M2MeT2.0 Challenge hervorragende Ergebnisse auf dem ersten Platz.
Der diesjährige M2MeT2.0 Challenge-Datensatz enthält reale, multiszenario- und multimodale Großdaten, die eine Vielzahl von Konferenzräumen unterschiedlicher Größe und Aufteilung abdecken, verschiedene Möbel, regelmäßige Treffen mit unterschiedlichen Themen und verschiedene Innengeräusche simulieren . Diese überlappenden Geräusche wie menschliche Stimmen, Fernsehgeräusche, Geräusche von Ventilatoren und Klimaanlagen, Tastaturgeräusche, Geräusche beim Öffnen/Schließen von Türen, Blasengeräusche usw. erhöhen den Schwierigkeitsgrad des Spiels. Durch die gleichzeitige Verwendung eines Mikrofonarrays zur Aufnahme von entfernten Geräuschen und eines Headset-Mikrofons zur Aufnahme von nahen Geräuschen wird eine genaue Transkription der Sprache des entsprechenden Sprechers gewährleistet. Dieser Datensatz ist von großer akademischer Bedeutung für die Untersuchung von Spracherkennungs- und Sprachüberlappungsproblemen bei mehreren Sprechern und stellt reale und vielfältige Datenressourcen für die Suche nach Lösungen auf industrieller Ebene bereit.
Alle Sprecher im M2MeT2.0 Challenge-Datensatz sind chinesische Muttersprachler. Himalaya beteiligt sich aktiv durch eine Kombination aus Industrie, Wissenschaft und Forschung und engagiert sich für die Entwicklung der lokalen Spracherkennungstechnologie in China. Bei der M2MeT2.0 Challenge demonstrierte Himalaya eine hervorragende Sprecher- und Spracherkennungstechnologie (ASR) und demonstrierte eine hervorragende Leistung. Das Team des Everest Laboratory nutzte selbst entwickelte Sprechererkennungs-, Sprachverbesserungs- und Spracherkennungsmodule, um mit Optimierung und Erfahrung bedeutende Durchbrüche zu erzielen in Sprachüberschneidungen und Umgebungen mit mehreren Sprechern erstellt. Durch die Kombination von Deep-Learning- und neuronalen Netzwerkmodellen ist das Himalayan Everest Laboratory in der Lage, die Sprache mehrerer Sprecher in Echtzeit zu transkribieren und genau zu identifizieren und zu trennen.
Ximalaya-bezogene Technologien wurden nicht nur bei der ASRU 2023 M2MeT2.0 Challenge verifiziert, sondern auch bei der Ximalaya AIGC-Inhaltsproduktion eingesetzt und gestärkt. Derzeit wird die Ximalaya Automatic Speech Recognition (ASR)-Technologie häufig in der KI-Skriptfunktion der Ximalaya-App verwendet. Sie transkribiert den Sprachinhalt ohne Skripte in der Himalaya-Plattform und gibt den entsprechenden Text aus, wodurch es für Zuhörer einfacher wird, besser zu sprechen den Sprachinhalt verstehen. Gleichzeitig nutzt die KI-Manuskriptfunktion von Es ist bequemer, das Erlebnis des Inhaltskonsums durch gleichzeitiges Zuhören und Ansehen zu genießen.
Himalaya betreibt seit vielen Jahren intensive Forschung auf dem Gebiet der KI-Sprachtechnologie. Sein Everest-Labor konzentriert sich seit langem auf Forschung und Innovation in den Bereichen Sprachsynthese, Emotionsanalyse, Spracherkennung und anderen Bereichen. Durch die Teilnahme an der ASRU 2023 M2MeT2.0 Challenge und den Gewinn der Meisterschaft festigte Himalaya seine führende Position im Bereich der Sprachtechnologie weiter und demonstrierte seine hervorragende Fähigkeit, komplexe Sprachszenarien zu lösen.
Als von den Nutzern geliebte Online-Audioplattform verfolgt Himalaya seit jeher das Konzept, die Kultur durch Technologie zu stärken und Technologie kontinuierlich mit Erstellern und Nutzern zu integrieren, um die Effizienz der Inhaltsproduktion zu verbessern und ein hervorragendes Inhaltserlebnis zu bieten. Ximalaya wird auch weiterhin fortschrittliche und intelligente Sprachtechnologie mit Ton durch technologische Stärkung und die Integration von Industrie, Wissenschaft und Forschung kombinieren, um Benutzern hervorragende Produkte und Dienstleistungen im Bereich Sprachtechnologie anzubieten.
Das obige ist der detaillierte Inhalt vonXimalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!