AI音声マルチモーダルテクノロジーを深く開発し、ローカライズされたインテリジェントなインタラクティブエクスペリエンスを実現します

王林
リリース: 2023-09-17 13:21:10
転載
1442 人が閲覧しました

5G と人工知能技術の発展に伴い、インテリジェント音声はさまざまなインテリジェント端末製品によって人々の日常生活に浸透し、さらなる利便性と可能性をもたらしています。 Transsion は、新興市場におけるスマート端末製品とモバイル インターネット サービスのプロバイダーとして、人工知能分野における継続的なイノベーションに焦点を当て、AI 音声テクノロジーの研究と応用を継続的に推進し、よりローカライズされたユーザー シナリオの要件を調査し、フル シナリオを提供します。新興市場のユーザーにインテリジェンスを提供し、インタラクティブなエクスペリエンスを提供します。

現在、Transsion は、音声認識、意味理解、音声合成、自然言語処理、ナレッジ グラフなどにおける独自の基礎となる AI 音声テクノロジー機能を形成し、小さな言語の音声データで利点を構築し、多言語での開発を行っています。音声 アシスタント、デジタル ヒューマン、および音声偽造検出テクノロジーにおいて大きな進歩が見られました。今年の初め以来、Transsion の AI テクノロジー部門は成果を上げ続けており、ICASSP 2023 SLU 音声言語理解チャレンジおよび IJCAI 2023 ADD Voice Deep Forgery Detection International Challenge で素晴らしい成績を収め、デジタル ヒューマン マルチモデルを次のサイトで公開しました。国際マルチメディア主力学術会議 ICME 2023。ダイナミック インタラクションに関する学術論文。

ローカル音声インタラクティブ コンテンツ エコシステム向けの多言語音声アシスタントの構築

音声アシスタントはスマートフォンの標準アプリケーションの 1 つであり、そのコア技術は音声インタラクションと自然言語理解であり、ユーザーが目的のタスクをより迅速かつ効率的に実行できるようにすることを目的としています。新興市場におけるローカル音声インタラクションの需要に直面して、TRANSSION は、現地ユーザーのニーズの理解と技術的ソリューションの形成に重点を置き、多言語音声アシスタント技術に長年深く関与し、深い技術力と実用性を蓄積してきました。探査および研究開発のプロセスにおける経験。

2023 年のトップ国際会議 ICASSP では、Transsion の AI テクノロジー部門が SLU (Spoken Language Understanding) チャレンジで大きな成功を収めました。音声認識と意味理解における優れたパフォーマンスにより、オフライン音声アシスタントのサブトラックで 71.97% の精度で 1 位を獲得しました。彼らの応募論文「A Two-Stage System for Spoken Language Understanding」は、IEEE Institute of Electrical and Electronics Engineers にも掲載されました。

AI音声マルチモーダルテクノロジーを深く開発し、ローカライズされたインテリジェントなインタラクティブエクスペリエンスを実現します

Transsion の AI テクノロジー部門の同僚が ICASSP 2023 で研究結果を共有しました

現在、音声アシスタントは主に主流の言語を対象としていますが、ニッチな言語、特定の人々のグループ、およびその他の細分化された領域はあまりカバーしていません。 TRANSSIONは、アフリカや南アジアなどの新興市場のユーザーの現地のアクセントや少数言語をターゲットに、携帯電話の膨大なユーザーリソースをもとにローカライズされた低コストで高品質なコーパスデータ制作システムを構築し、不足問題を解決しています。コーパスの不足と少数言語のデータ不足。これに基づいて、Transsion は新興市場の現地ユーザーの言語と文化的特徴に適応できる多言語音声アシスタントを開発し、現地ユーザーが現地の言語をより便利に使用して音声で携帯電話を操作できるように支援します。現在、Transsion の多言語音声アシスタント テクノロジーは、英語、フランス語、ハウサ語、アラビア語、スワヒリ語などの言語での音声対話と自然言語理解機能をサポートしており、連絡先通話、APP のクイック起動、音楽再生、WhatsApp メッセージングなどの 100 以上の使用シナリオをカバーしています。おしゃべり###

生活サービスにおける現地ユーザーのニーズを満たすために、Transsion の多言語 AI 音声アシスタント技術は、今後もより多くの生活、旅行、学習、仕事のシナリオに適用され、言語を超えた AI コンテンツ サービスを構築していきます。エコシステムはインテリジェントな音声を実現します。地域の生活のあらゆる側面に浸透し、母語を話すより多くの人々に利益をもたらすサービスを提供します

AI音声マルチモーダルテクノロジーを深く開発し、ローカライズされたインテリジェントなインタラクティブエクスペリエンスを実現しますAI デジタル ヒューマン テクノロジーが Transsion のマルチシナリオ ビジネスを強化します

インタラクティブインテリジェンス技術の開発が加速するにつれ、デジタルヒューマンは技術革新から産業応用へと移行し、エンターテインメント、教育、医療などの分野で役割を果たしています。 TranssionはAI開発の機会を積極的に取り入れ、デジタルヒューマンテクノロジーを先行展開し、完全なフルリンクテクノロジーとエンジニアリングの自己研究能力を確立しました。 Transsion のデジタル ヒューマン システムには、2D リアル ピープルと 3D リアル デジタル ヒューマンが含まれています。多言語音声認識、音声合成、音声覚醒、自然言語理解、デジタル ヒューマン機能に基づいたデータ リソースがあり、多言語音声対話、ヒューマン デザイン、およびデジタル ヒューマン機能に使用できます。外観、インテリジェントなシーンのインタラクションなどの領域は、独自のローカライズされた特性と業界のリーダーシップを形成しています。今年1月、Transsionのデジタルヒューマンシステムは、中国情報通信技術院が発行するデジタルヒューマン分野の権威ある標準認証を取得した。これは、中国情報通信技術院の評価に合格した中国の携帯電話メーカーの唯一のデジタル ヒューマン システムでもあり、「対話型対話」に基づいています。

仮想画像のシミュレーション効果を向上させ、リアルで表現力豊かなデジタル ヒューマン ビデオを合成するために、Transsion AI 技術部門はエンドツーエンドの技術を独自に開発し、デジタル ヒューマン ビデオ生成の品質を最適化する過程で、 Unetネットワークに基づいて、高密度接続されたUnet構造の新しい技術フレームワークが開発され、テキスト意味情報を使用してデジタル人間の口のアニメーション効果を向上させるCLIPのエンコーダ構造が導入されました。同時に、この技術は顔キーポイント技術の確率密度マップを提案し、モデルネットワークのモーダル情報を増加させ、モデル生成の品質を向上させます。この技術的ブレークスルーにより、デジタル人物の顔画像をよりリアルかつ繊細に表現できると同時に、声や唇の形状の一貫性も向上し、その生成効果は学術界をリードするレベルに達しています。関連学術論文「CPNet: Exploiting CLIP-based tention Condenser and Probability Map Guide for High-fidelity Talking Face Generation」が、国際的なマルチメディアの旗艦学術会議 ICME 2023 (IEEE International Conference on Multimedia and Expo) に採択されました。

AI音声マルチモーダルテクノロジーを深く開発し、ローカライズされたインテリジェントなインタラクティブエクスペリエンスを実現します

現在、Transsion Digital Human System はさまざまなビジネス シナリオで広く使用されています。海外の携帯電話販売店において、ユーザーに携帯電話購入の参考となるスマートショッピングガイドとして利用されるだけでなく、さまざまなスマート端末製品にスマート音声アシスタント機能を提供し、ユーザーエクスペリエンスを向上させることもできます。今後、トランションは「AIデジタルヒューマン」技術をさらに活用して、さまざまなシーンでビジネスを強化し、デジタルヒューマン音声アシスタントやカスタマーサービスシステムなどの新しいビジネス形態を積極的に模索し、新しいインテリジェントなインタラクティブ体験をユーザーに提供していきます

AI 音声の基礎となる技術機能の構築を継続する

今日の AI テクノロジーの急速な発展により、アルゴリズムによって生成された音声や音声の偽造が、偽の音声と本物の音声を混同するために使用される可能性があり、一般のユーザーが本物の音声と偽の音声を区別することは非常に困難です。情報の信頼性を維持し、社会保障を確保するために、音声偽造検出技術は非常に重要となっており、人工知能分野における新たな研究の方向性となっています。 Transsion は、スマート端末製品のビジネス シナリオに焦点を当て、現地ユーザーのニーズに導かれ、AI 音声の基礎となる技術能力を継続的に拡張し、新しい技術分野を展開し、音声偽造検出技術で大きな進歩を遂げています。

The Second Audio Deepfake Detection Challenge ADD (The Second Audio Deepfake Detection Challenge) IJCAI 2023 (第 32 回人工知能国際合同会議) Transsion AI 技術部門主催「改ざん領域」操作領域位置トラックで第 2 位を獲得。コンテスト中に、Transsion の AI テクノロジー部門は、音声内の音声改ざんを正確に識別して特定できる革新的な AI モデル アルゴリズムとテクノロジーを独自に開発し、それによってデジタル オーディオの独創性と信頼性を効果的に確保し、AI アプリケーションと情報セキュリティの基盤を構築しました。アイデア。この IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023) カンファレンスでは、関連する学術論文が無事に発表されました。

AI音声マルチモーダルテクノロジーを深く開発し、ローカライズされたインテリジェントなインタラクティブエクスペリエンスを実現します

次のステップでは、Transsion の AI テクノロジー部門は、ユーザーのプライバシーとセキュリティを保護するための通話詐欺チェックなど、Transsion のスマート端末製品への音声ディープ偽造検出テクノロジーの適用を引き続き検討し、ユーザー エクスペリエンスを継続的に向上させます。 。

トランションは今後も、新興市場に関する深い洞察と組み合わせて、「携帯電話インターネットサービス、家電製品およびデジタルアクセサリ」という中核的なビジネスニーズに焦点を当て、AI音声マルチモーダル技術の分野で努力を続けていきます。と地元の消費者のニーズを満たすスマート ライフ エクスペリエンスをユーザーに提供するために、多言語、マルチシナリオ、パーソナライズされたインテリジェントなアプリケーション ニーズを満たし続けるローカライズされた AI コンテンツ サービス エコシステムを形成します。

以上がAI音声マルチモーダルテクノロジーを深く開発し、ローカライズされたインテリジェントなインタラクティブエクスペリエンスを実現しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:sohu.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート