Ximalaya durchbricht das Problem der Sprachüberlappung und gewinnt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird
Kürzlich endete die Multi-Channel-Multi-Party-Conference-Transcription-Challenge (M2MeT2.0) der internationalen Top-Sprachkonferenz ASRU (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) 2023 und der Himalayan Everest erfolgreich Das Labor hat hervorragende Ergebnisse erzielt.
Das ASRU-Symposium ist die wichtigste technische Veranstaltung des IEEE Speech and Language Processing Technical Committee (SLTC), die alle zwei Jahre stattfindet und Spitzenexperten und Forscher aus Wissenschaft und Industrie zusammenbringt, um ein breites Spektrum an Fragen der Spracherkennung und des Sprachverständnisses zu diskutieren. Die M2MeT2.0 Challenge ist ein wichtiger Wettbewerb der ASRU im Jahr 2023. Ihr Ziel ist es, das Problem der überlappenden Sprachtranskription in Offline-Konferenzräumen zu lösen. Als typische „Cocktailparty-Szene“, in der viele Menschen frei reden, war die Meeting-Szene schon immer eine Schwierigkeit und ein Schwerpunkt im Bereich der Spracherkennung. Sie ist von großer Bedeutung für die Entwicklung sprachlicher künstlicher Intelligenz für Meeting-Szenen und die Erforschung von Lösungen auf industrieller Ebene auf verwandte Probleme.
Es ist erwähnenswert, dass dies nicht das erste Mal ist, dass Himalaya an der M2MeT Challenge von ASRU teilnimmt. Bei der ersten M2MeT Challenge kooperierte Ximalaya mit der University of Science and Technology of China und gewann den dritten Platz im Speaker-Log-Track und erreichte eine Log-Fehlerrate von nur 4,05 %. Bei der ersten Herausforderung verwendete die Evaluierung die Zeichenfehlerrate (CER) als Messgröße und transkribierte nur Audio in Text, ohne Sprecherbezeichnungen zu berücksichtigen. Basierend auf dem Erfolg der ersten Sitzung wird sich die M2MeT2.0 Challenge auf die sprecherbezogene Bewertung konzentrieren, die praktische Umsetzung von Spracherkennungssystemen für mehrere Sprecher fördern und zwei Unterspuren einrichten: begrenzte Daten und unqualifizierte Daten.
Um dieser Herausforderung zu begegnen, begann das Himalayan Everest Laboratory mit dem Grundgerüst der Spracherkennung und startete technische Untersuchungen in der Aliasing-Spracherkennungstechnologie und der Sprecherprotokollierungstechnologie. Ximalaya erzielte sowohl im begrenzten Datensatz als auch im offenen Datensatz der M2MeT2.0 Challenge hervorragende Ergebnisse auf dem ersten Platz.
Der diesjährige M2MeT2.0 Challenge-Datensatz enthält reale, multiszenario- und multimodale Großdaten, die eine Vielzahl von Konferenzräumen unterschiedlicher Größe und Aufteilung abdecken, verschiedene Möbel, regelmäßige Treffen mit unterschiedlichen Themen und verschiedene Innengeräusche simulieren . Diese überlappenden Geräusche wie menschliche Stimmen, Fernsehgeräusche, Geräusche von Ventilatoren und Klimaanlagen, Tastaturgeräusche, Geräusche beim Öffnen/Schließen von Türen, Blasengeräusche usw. erhöhen den Schwierigkeitsgrad des Spiels. Durch die gleichzeitige Verwendung eines Mikrofonarrays zur Aufnahme von entfernten Geräuschen und eines Headset-Mikrofons zur Aufnahme von nahen Geräuschen wird eine genaue Transkription der Sprache des entsprechenden Sprechers gewährleistet. Dieser Datensatz ist von großer akademischer Bedeutung für die Untersuchung von Spracherkennungs- und Sprachüberlappungsproblemen bei mehreren Sprechern und stellt reale und vielfältige Datenressourcen für die Suche nach Lösungen auf industrieller Ebene bereit.
Alle Sprecher im M2MeT2.0 Challenge-Datensatz sind chinesische Muttersprachler. Himalaya beteiligt sich aktiv durch eine Kombination aus Industrie, Wissenschaft und Forschung und engagiert sich für die Entwicklung der lokalen Spracherkennungstechnologie in China. Bei der M2MeT2.0 Challenge demonstrierte Himalaya eine hervorragende Sprecher- und Spracherkennungstechnologie (ASR) und demonstrierte eine hervorragende Leistung. Das Team des Everest Laboratory nutzte selbst entwickelte Sprechererkennungs-, Sprachverbesserungs- und Spracherkennungsmodule, um mit Optimierung und Erfahrung bedeutende Durchbrüche zu erzielen in Sprachüberschneidungen und Umgebungen mit mehreren Sprechern erstellt. Durch die Kombination von Deep-Learning- und neuronalen Netzwerkmodellen ist das Himalayan Everest Laboratory in der Lage, die Sprache mehrerer Sprecher in Echtzeit zu transkribieren und genau zu identifizieren und zu trennen.
Ximalaya-bezogene Technologien wurden nicht nur bei der ASRU 2023 M2MeT2.0 Challenge verifiziert, sondern auch bei der Ximalaya AIGC-Inhaltsproduktion eingesetzt und gestärkt. Derzeit wird die Ximalaya Automatic Speech Recognition (ASR)-Technologie häufig in der KI-Skriptfunktion der Ximalaya-App verwendet. Sie transkribiert den Sprachinhalt ohne Skripte in der Himalaya-Plattform und gibt den entsprechenden Text aus, wodurch es für Zuhörer einfacher wird, besser zu sprechen den Sprachinhalt verstehen. Gleichzeitig nutzt die KI-Manuskriptfunktion von Es ist bequemer, das Erlebnis des Inhaltskonsums durch gleichzeitiges Zuhören und Ansehen zu genießen.
Neben der ASR-Technologie ist auch die TTS-Technologie (Sprachsynthese) von Himalaya führend in der Branche und wird häufig bei der Produktion von Geschichten, Nachrichten, Romanen und anderen Inhalten eingesetzt. Himalaya hat sein unabhängig entwickeltes unabhängiges Rhythmus-Extraktionsmodul integriert in HiTTS Das technische Framework reproduziert perfekt Shan Tianfangs „Stimme“. Berichten zufolge hat Ximalaya mehr als 100 Alben herausgebracht, die mit Shan Tianfangs KI-synthetisierten Klängen synthetisiert wurden, und die kumulierte Wiedergabelautstärke hat das 100-Millionen-fache überschritten.
Himalaya betreibt seit vielen Jahren intensive Forschung auf dem Gebiet der KI-Sprachtechnologie. Sein Everest-Labor konzentriert sich seit langem auf Forschung und Innovation in den Bereichen Sprachsynthese, Emotionsanalyse, Spracherkennung und anderen Bereichen. Durch die Teilnahme an der ASRU 2023 M2MeT2.0 Challenge und den Gewinn der Meisterschaft festigte Himalaya seine führende Position im Bereich der Sprachtechnologie weiter und demonstrierte seine hervorragende Fähigkeit, komplexe Sprachszenarien zu lösen.
Als von den Nutzern geliebte Online-Audioplattform verfolgt Himalaya seit jeher das Konzept, die Kultur durch Technologie zu stärken und Technologie kontinuierlich mit Erstellern und Nutzern zu integrieren, um die Effizienz der Inhaltsproduktion zu verbessern und ein hervorragendes Inhaltserlebnis zu bieten. Ximalaya wird auch weiterhin fortschrittliche und intelligente Sprachtechnologie mit Ton durch technologische Stärkung und die Integration von Industrie, Wissenschaft und Forschung kombinieren, um Benutzern hervorragende Produkte und Dienstleistungen im Bereich Sprachtechnologie anzubieten.
Das obige ist der detaillierte Inhalt vonXimalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!