Ximalaya が音声の重複問題を突破し、AI イノベーションを加速する国際会議の課題で 1 位を獲得-AI-php.cn

ホームページ

テクノロジー周辺機器

Ximalaya が音声の重複問題を突破し、AI イノベーションを加速する国際会議の課題で 1 位を獲得

王林

Jul 07, 2023 pm 03:42 PM

Ximalaya が音声の重複問題を突破し、国際会議チャレンジで 1 位を獲得、AI イノベーションを加速

最近、2023 年の国際トップスピーチ会議 ASRU (IEEE 自動音声認識と自動理解、自動音声認識と理解) のマルチチャネル多者会議の文字起こしチャレンジ (M2MeT2.0) が成功裡に終了し、ヒマラヤエベレスト研究所は優れた成果を達成し、チャンピオンシップの栄誉を獲得しました。

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

ASRU シンポジウムは、IEEE 音声言語処理技術委員会 (SLTC) の主力技術イベントで、2 年ごとに開催され、学界と産業界のトップの専門家や研究者が集まり、幅広い音声認識について議論し、言語処理技術委員会の理解を深めます。問題。 M2MeT2.0 チャレンジは、2023 年の ASRU の主要なコンテストです。その目標は、オフラインの会議室で重複する音声文字起こしの問題を解決することです。会議シーンは、多くの人が自由に会話する典型的な「カクテルパーティーシーン」として、音声認識分野において常に難しさと焦点となっており、会議シーン向けの音声人工知能の開発や産業レベルのソリューションの探索において、非常に重要な意義がある。関連する問題に。

ヒマラヤが ASRU の M2MeT チャレンジに参加するのはこれが初めてではないことは注目に値します。最初の M2MeT チャレンジで、Ximalaya は中国科学技術大学と協力し、わずか 4.05% のログエラー率を達成し、スピーカーログトラックで 3 位を獲得しました。最初の課題では、評価は文字誤り率 (CER) を指標として使用し、話者ラベルを考慮せずに音声のみがテキストに書き起こされます。最初のセッションの成功に基づいて、M2MeT2.0 チャレンジは話者関連の評価に焦点を当て、マルチ話者音声認識システムの実用化を促進し、限定されたデータと不適格データの 2 つのサブトラックを設定します。

この課題に対処するために、ヒマラヤエベレスト研究所は音声認識の基本フレームワークからスタートし、エイリアシング音声検出技術と話者ログ技術の技術的探求を開始しました。 Ximalaya は、M2MeT2.0 チャレンジの限定されたデータセットとオープンデータセットのサブトラックの両方で優れた 1 位の結果を達成しました。

今年の M2MeT2.0 チャレンジデータセットには、実際のマルチシナリオ、マルチモーダルの大規模データが含まれており、さまざまなサイズとレイアウトのさまざまな会議室をカバーし、さまざまな家具、さまざまなテーマの定期会議、およびさまざまな会議室をシミュレートしています。室内の騒音。人の声、テレビの音、扇風機やエアコンの音、キーボードの音、ドアの開閉音、泡の音など、これらの音の重なりがゲームの難易度を高めます。マイクアレイを使用して遠くの音を録音し、ヘッドセットマイクを使用して近くの音を録音することにより、対応する話者の音声を正確に転写することが保証されます。このデータセットは、複数話者の音声認識と音声の重複問題の研究にとって学術的に非常に重要であり、産業レベルの解決策を見つけるための実際の多様なデータリソースを提供します。

M2MeT2.0 チャレンジデータセットの話者はすべて中国語のネイティブスピーカーであり、Ximalaya は産学界、研究の組み合わせを通じて積極的に参加し、中国のローカル音声認識技術の発展に貢献することに尽力しています。 M2MeT2.0 チャレンジでは、ヒマラヤは優れた話者および音声認識技術 (ASR) を実証し、優れたパフォーマンスを実証しました。同社のエベレスト研究所チームは、自社開発した話者認識、音声強化、および音声認識モジュールを使用しました。最適化と経験により、重要なブレークスルーが実現しました。音声オーバーラップおよびマルチスピーカー環境で作成されました。ヒマラヤエベレスト研究所は、深層学習とニューラルネットワークモデルを組み合わせることで、複数の話者の音声をリアルタイムで文字に起こし、正確に識別して分離することができます。

Ximalaya 関連テクノロジーは、ASRU 2023 M2MeT2.0 チャレンジで検証されただけでなく、Ximalaya AIGC コンテンツ制作にも適用され、強化されています。現在、Ximalaya 自動音声認識 (ASR) 技術は、Ximalaya アプリの AI スクリプト機能で広く使用されており、Himalaya プラットフォームでスクリプトなしで音声コンテンツを書き起こし、対応するテキストを出力することで、視聴者が理解しやすくしています。音声の内容をよりよく理解できます。同時に、元の原稿の音声コンテンツに対して、Ximalaya の AI 原稿機能は、超長音声とテキストの位置合わせ技術を使用して音声と原稿にタイムスタンプを付け、音声の再生と対応するテキストの同期ハイライトを実現します。聞くことと見ることを同時に楽しむコンテンツ消費体験がより便利になります。

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一加速AI创新

ASR テクノロジーに加えて、ヒマラヤの TTS (音声合成) テクノロジーも業界の最前線にあり、ストーリーテリング、ニュース、小説、その他のコンテンツの制作に広く使用されています。「声」を完璧に再現。報道によると、XimalayaはShan TianfangのAI合成音で合成したアルバムを100枚以上発売し、累計再生回数は1億回を超えたという。

ヒマラヤは長年にわたり、AI 音声技術の分野で徹底した研究を行っており、そのエベレスト研究所では、音声合成、感情分析、音声認識などの分野の研究と革新に長年注力してきました。 ASRU 2023 M2MeT2.0 チャレンジに参加し、優勝したことで、ヒマラヤは音声テクノロジー分野における主導的地位をさらに強化し、複雑な音声シナリオを解決する優れた能力を実証しました。

ユーザーに愛されるオンラインオーディオプラットフォームとして、ヒマラヤはテクノロジーで文化に力を与えるというコンセプトを常に堅持し、常にテクノロジーをクリエイターとユーザーと統合して、コンテンツ制作効率を向上させ、優れたコンテンツ体験を提供してきました。また、Ximalaya は、技術力の強化と産学研究の統合を通じて、先進的でインテリジェントな音声テクノロジーとサウンドを組み合わせ、優れた音声テクノロジー製品とサービスをユーザーに提供し続けます。

以上がXimalaya が音声の重複問題を突破し、AI イノベーションを加速する国際会議の課題で 1 位を獲得の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7663

CakePHP チュートリアル

1393

C# チュートリアル

1205

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

クリエイティブプロジェクトのための最高のAIアートジェネレーター（無料＆amp;有料） Apr 02, 2025 pm 06:10 PM

この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

ChatGpt 4 oは利用できますか？ Mar 28, 2025 pm 05:29 PM

CHATGPT 4は現在利用可能で広く使用されており、CHATGPT 3.5のような前任者と比較して、コンテキストを理解し、一貫した応答を生成することに大幅な改善を示しています。将来の開発には、よりパーソナライズされたインターが含まれる場合があります

Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

ベストAIチャットボットが比較されました（chatgpt、gemini、claude＆amp; more） Apr 02, 2025 pm 06:09 PM

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

トップAIライティングアシスタントは、コンテンツの作成を後押しします Apr 02, 2025 pm 06:11 PM

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します