


Ximalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird
Ximalaya durchbricht das Problem der Sprachüberlappung und gewinnt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird
Kürzlich endete die Multi-Channel-Multi-Party-Conference-Transcription-Challenge (M2MeT2.0) der internationalen Top-Sprachkonferenz ASRU (IEEE Automatic Speech Recognition and Understanding, Automatic Speech Recognition and Understanding) 2023 und der Himalayan Everest erfolgreich Das Labor hat hervorragende Ergebnisse erzielt.
Es ist erwähnenswert, dass dies nicht das erste Mal ist, dass Himalaya an der M2MeT Challenge von ASRU teilnimmt. Bei der ersten M2MeT Challenge kooperierte Ximalaya mit der University of Science and Technology of China und gewann den dritten Platz im Speaker-Log-Track und erreichte eine Log-Fehlerrate von nur 4,05 %. Bei der ersten Herausforderung verwendete die Evaluierung die Zeichenfehlerrate (CER) als Messgröße und transkribierte nur Audio in Text, ohne Sprecherbezeichnungen zu berücksichtigen. Basierend auf dem Erfolg der ersten Sitzung wird sich die M2MeT2.0 Challenge auf die sprecherbezogene Bewertung konzentrieren, die praktische Umsetzung von Spracherkennungssystemen für mehrere Sprecher fördern und zwei Unterspuren einrichten: begrenzte Daten und unqualifizierte Daten.
Um dieser Herausforderung zu begegnen, begann das Himalayan Everest Laboratory mit dem Grundgerüst der Spracherkennung und startete technische Untersuchungen in der Aliasing-Spracherkennungstechnologie und der Sprecherprotokollierungstechnologie. Ximalaya erzielte sowohl im begrenzten Datensatz als auch im offenen Datensatz der M2MeT2.0 Challenge hervorragende Ergebnisse auf dem ersten Platz.
Der diesjährige M2MeT2.0 Challenge-Datensatz enthält reale, multiszenario- und multimodale Großdaten, die eine Vielzahl von Konferenzräumen unterschiedlicher Größe und Aufteilung abdecken, verschiedene Möbel, regelmäßige Treffen mit unterschiedlichen Themen und verschiedene Innengeräusche simulieren . Diese überlappenden Geräusche wie menschliche Stimmen, Fernsehgeräusche, Geräusche von Ventilatoren und Klimaanlagen, Tastaturgeräusche, Geräusche beim Öffnen/Schließen von Türen, Blasengeräusche usw. erhöhen den Schwierigkeitsgrad des Spiels. Durch die gleichzeitige Verwendung eines Mikrofonarrays zur Aufnahme von entfernten Geräuschen und eines Headset-Mikrofons zur Aufnahme von nahen Geräuschen wird eine genaue Transkription der Sprache des entsprechenden Sprechers gewährleistet. Dieser Datensatz ist von großer akademischer Bedeutung für die Untersuchung von Spracherkennungs- und Sprachüberlappungsproblemen bei mehreren Sprechern und stellt reale und vielfältige Datenressourcen für die Suche nach Lösungen auf industrieller Ebene bereit.
Alle Sprecher im M2MeT2.0 Challenge-Datensatz sind chinesische Muttersprachler. Himalaya beteiligt sich aktiv durch eine Kombination aus Industrie, Wissenschaft und Forschung und engagiert sich für die Entwicklung der lokalen Spracherkennungstechnologie in China. Bei der M2MeT2.0 Challenge demonstrierte Himalaya eine hervorragende Sprecher- und Spracherkennungstechnologie (ASR) und demonstrierte eine hervorragende Leistung. Das Team des Everest Laboratory nutzte selbst entwickelte Sprechererkennungs-, Sprachverbesserungs- und Spracherkennungsmodule, um mit Optimierung und Erfahrung bedeutende Durchbrüche zu erzielen in Sprachüberschneidungen und Umgebungen mit mehreren Sprechern erstellt. Durch die Kombination von Deep-Learning- und neuronalen Netzwerkmodellen ist das Himalayan Everest Laboratory in der Lage, die Sprache mehrerer Sprecher in Echtzeit zu transkribieren und genau zu identifizieren und zu trennen.
Ximalaya-bezogene Technologien wurden nicht nur bei der ASRU 2023 M2MeT2.0 Challenge verifiziert, sondern auch bei der Ximalaya AIGC-Inhaltsproduktion eingesetzt und gestärkt. Derzeit wird die Ximalaya Automatic Speech Recognition (ASR)-Technologie häufig in der KI-Skriptfunktion der Ximalaya-App verwendet. Sie transkribiert den Sprachinhalt ohne Skripte in der Himalaya-Plattform und gibt den entsprechenden Text aus, wodurch es für Zuhörer einfacher wird, besser zu sprechen den Sprachinhalt verstehen. Gleichzeitig nutzt die KI-Manuskriptfunktion von Es ist bequemer, das Erlebnis des Inhaltskonsums durch gleichzeitiges Zuhören und Ansehen zu genießen.
Himalaya betreibt seit vielen Jahren intensive Forschung auf dem Gebiet der KI-Sprachtechnologie. Sein Everest-Labor konzentriert sich seit langem auf Forschung und Innovation in den Bereichen Sprachsynthese, Emotionsanalyse, Spracherkennung und anderen Bereichen. Durch die Teilnahme an der ASRU 2023 M2MeT2.0 Challenge und den Gewinn der Meisterschaft festigte Himalaya seine führende Position im Bereich der Sprachtechnologie weiter und demonstrierte seine hervorragende Fähigkeit, komplexe Sprachszenarien zu lösen.
Als von den Nutzern geliebte Online-Audioplattform verfolgt Himalaya seit jeher das Konzept, die Kultur durch Technologie zu stärken und Technologie kontinuierlich mit Erstellern und Nutzern zu integrieren, um die Effizienz der Inhaltsproduktion zu verbessern und ein hervorragendes Inhaltserlebnis zu bieten. Ximalaya wird auch weiterhin fortschrittliche und intelligente Sprachtechnologie mit Ton durch technologische Stärkung und die Integration von Industrie, Wissenschaft und Forschung kombinieren, um Benutzern hervorragende Produkte und Dienstleistungen im Bereich Sprachtechnologie anzubieten.
Das obige ist der detaillierte Inhalt vonXimalaya durchbricht das Problem der Sprachüberlappung und belegt den ersten Platz bei der International Conference Challenge, wodurch die KI-Innovation beschleunigt wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen





Der Artikel überprüft Top -KI -Kunstgeneratoren, diskutiert ihre Funktionen, Eignung für kreative Projekte und Wert. Es zeigt MidJourney als den besten Wert für Fachkräfte und empfiehlt Dall-E 2 für hochwertige, anpassbare Kunst.

Chatgpt 4 ist derzeit verfügbar und weit verbreitet, wodurch im Vergleich zu seinen Vorgängern wie ChatGPT 3.5 signifikante Verbesserungen beim Verständnis des Kontextes und des Generierens kohärenter Antworten zeigt. Zukünftige Entwicklungen können mehr personalisierte Inters umfassen

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

Der Artikel vergleicht Top -KI -Chatbots wie Chatgpt, Gemini und Claude und konzentriert sich auf ihre einzigartigen Funktionen, Anpassungsoptionen und Leistung in der Verarbeitung und Zuverlässigkeit natürlicher Sprache.

In dem Artikel werden Top -KI -Schreibassistenten wie Grammarly, Jasper, Copy.ai, Writesonic und RYTR erläutert und sich auf ihre einzigartigen Funktionen für die Erstellung von Inhalten konzentrieren. Es wird argumentiert, dass Jasper in der SEO -Optimierung auszeichnet, während KI -Tools dazu beitragen, den Ton zu erhalten

Falcon 3: Ein revolutionäres Open-Source-Großsprachmodell Falcon 3, die neueste Iteration in der gefeierten Falcon -Serie von LLMs, stellt einen erheblichen Fortschritt in der AI -Technologie dar. Entwickelt vom Technology Innovation Institute (TII), diesem offen

Der Artikel überprüft Top -KI -Sprachgeneratoren wie Google Cloud, Amazon Polly, Microsoft Azure, IBM Watson und Descript, wobei sie sich auf ihre Funktionen, die Sprachqualität und die Eignung für verschiedene Anforderungen konzentrieren.

2024 veränderte sich von einfacher Verwendung von LLMs für die Erzeugung von Inhalten zum Verständnis ihrer inneren Funktionsweise. Diese Erkundung führte zur Entdeckung von AI -Agenten - autonome Systeme zur Handhabung von Aufgaben und Entscheidungen mit minimalem menschlichen Eingreifen. Bauen
