北京冬季オリンピック AI バーチャル ヒューマン手話アンカー、杭州アジア大会デジタル ヒューマン イグニション、新華社デジタル レポーター、デジタル宇宙飛行士シャオウェイ... ますます多くのデジタル ヒューマンが人々の中に現れるにつれ、生活の中でデジタル全体が人間の産業も多様かつ幅広い用途に向けて発展しており、さまざまな産業やさまざまなシナリオに急速に拡大しています。
C サイドの場合、デジタル担当者はユーザーがコンテンツを作成し、作業を支援します。たとえば、デジタル担当者は話し言葉を練習したり、デジタル担当者とゲームをしたりします。 B サイドのデジタル担当者向け これは企業の「ツールマン」であり、金融、映画、テレビ、電子商取引、生放送、その他の業界で産業の生産と業務効率を向上させるために使用されています。
デジタル人材は優れたビジネスですが、その大規模な導入には依然として人材、コスト、シナリオ、テクノロジーなどの困難に直面しています。その中で最も重要なのは技術的なボトルネックであり、デジタル担当者に「ただで肌が綺麗」という市場評価をいかに払拭させるかが大きな課題となっている。
しかし、大型モデルの登場により、デジタルヒューマンの開発は新たなチャンスをもたらしているようです。
業界にとって、デジタル担当者自体は新しいものではありません。過去の長い間、デジタル ヒューマンの見た目の観点から忠実度の高いプレゼンテーションを追求するには、プロレベルの映画を作成するのと同じくらいの制作コストがかかりました。
UBSが発表したデジタルヒューマン調査報告書によると、高度なバーチャルキャラクターの平均初期投資コストは3,000万元で、その後、撮影、吹き替え、編集を完了するには実際のチームが必要になるとのこと。 Lehua EntertainmentのバーチャルガールズグループA-SOULを例に挙げると、シングルの制作費は200万元に達し、オフラインコンサートの費用は2,000万元に達しました。
しかし、この高コストの問題は、デジタルヒューマンインタラクションの影響の問題を解決するものではありません。知性が欠如しているため、デジタルヒューマンというよりは魂のないデジタルレザーケースに似ています。
コストが高く、インタラクション効果が低いため、デジタル ヒューマンの使用はメーカーや大企業顧客内の実験プロジェクトに限られてきました。
したがって、学習機能を備えた生成大規模モデルがコンテンツ制作パラダイムの主導権を握るにつれて、より広範囲の中小企業ユーザーをターゲットにし、大規模実装を優先する安価なデジタルヒューマンが実現可能なソリューションになりました。 。
ある人工知能研究者によると、大規模モデルによるデジタル ヒューマンの再構築と権限付与は、主にコスト削減と効率向上に反映されます。
技術的な観点から見ると、デジタル ヒューマンの構築は主にモデリング、駆動、レンダリングに分けられます。従来のデジタル ヒューマンは、主にコンピュータ グラフィックス テクノロジに依存して現実の人物の動きをキャプチャします。これには、大量の現実の人物データの収集と詳細なモデリングが必要であり、時間がかかり、効率が低く、コストが高くなります。
現在、ディープラーニング モデル、アクション シミュレーション、感情シミュレーション、その他のテクノロジに基づいた AI アルゴリズムによる大規模モデルのサポートにより、数分の実写ビデオと数時間のトレーニングだけで済みます。リアルなデジタル人物を生成するための大規模なモデルを使用すると、制作コストが大幅に削減されます。
デジタル ヒューマンのコストが削減されるだけでなく、効率も大幅に向上します。
大型モデルが登場する前は、デジタル ヒューマンは外観に小さな違いがあり、入力された統一スクリプトに基づいて「スクリプト化された」質問に答えることしかできませんでした。
大型モデルの強化により、デジタル ピープルは「魂」を持ち、外観や機能をカスタマイズできるだけでなく、インテリジェンスやインタラクティブ性も大幅に向上しました。たとえば、一部のライブ ブロードキャスト配信シナリオでは、デジタル担当者はすでに視聴者と基本的な対話を行うことができます。
たとえば、Baidu Intelligent Cloud がリリースした Xilin Digital Human は、大規模モデルのサポートにより、ライブ放送室の構築を 15 分で迅速に完了し、製品の機能に合わせたスピーチを自動的に生成し、開始することができます。インテリジェントなインタラクティブな Q&A。
あるケータリング ブランドのライブ ブロードキャスト ルームでは、Xilin デジタル ヒューマン アンカーが、砕氷船の開始、福利厚生放送、ウォームアップ スピーチ、注文を促すスキルなどを含む、ライブ ブロードキャストのスピーチ スキルを自動的に生成します。現実の人々とXi Lingデジタルの人々の間のこのリレーライブブロードキャストでは、ユーザーはまったく気づきませんでした。
さらに驚くべきことは、実際の 6 時間のライブ ブロードキャストの比較では、デジタル アンカーは本物のアンカーの GMV の 85% を獲得するのに、本物のアンカーのコストの 15% しか必要としなかったことです。
商品のライブ ストリーミングに加えて、Baidu Intelligent Cloud Xiling は、大規模なモデルを完全に再構築する中国初のデジタル ヒューマン プラットフォームとして、企業に 2D の現実的な人物、3D のリアルなポートレート、および 3D の超現実的なポートレートを提供することもできます。ビデオ制作、デジタル従業員、デジタルヒューマンスポークスマン、その他のアプリケーションを実現します。
たとえば、XiLing プラットフォームでは、ライブ ビデオにわずか 5 分、ポートレートのトレーニングに 30 分かかり、100 文を録音し、専用のサウンド ライブラリを 1 日 24 時間生成します。ライブティーチングのコストは、従来はわずか 30.% で、記録効率は 20 倍に向上しました。
大型モデルによって再形成され権限を与えられたデジタル担当者が、価格の高さやインタラクティブ性の低さなどの問題をある程度解決し、短いビデオやライブに出演することが増えていることを見つけるのは難しくありません。放送室。
同時に、デジタル担当者は、銀行のファイナンシャル プランナー、弁護士、教師、亡くなった有名人など、より多くの「アイデンティティ」に向けて動き始めています...デジタル担当者は、なりたい人物になりつつあり、これも同様です。混雑したトラックは新たなチャンスをもたらします。
大規模モデルの出現により、デジタル ピープルは「生まれ変わ」り、今日最も注目されている起業家コースの 1 つになりました。
現在、市場にはデジタル ヒューマン メーカーの 2 つの主要なカテゴリがあります。1 つは、Baidu、Tencent、Huawei などに代表されるテクノロジー大手で、大型モデルでの独自の利点に基づいてデジタル ヒューマン製品を開発および発売します。 Baidu、Tencent、Huawei などに代表されるテクノロジー大手。Silicon Intelligence、Mobvoi、Xiangxin Technology に代表される中小規模のメーカー。
人工知能分野の多くの投資家は、AIGC (生成人工知能) はまだ初期段階にあり、利益を生み出すために実装できるものは多くないと述べています。デジタル担当者は数少ない商用化経路の 1 つであり、すでに収益性の高いプロジェクトを抱えています。
しかし、多数の起業家が流入するにつれて、業界の競争は熾烈かつ均質になり、トラックは徐々に混雑し複雑になってきました。
インボリューションの現れの 1 つは、価格がどんどん下がっていることです。現在、ほとんどの 2D デジタル人間の価格は千元のレベルに下がり、中には数百元しかかからないものさえあります。
360 グループのデジタル ヒューマン マーケティング サービスは、インテリジェント マーケティング クラウド プラットフォームのサポート SaaS サービスを通じて顧客に宣伝されていることがわかります。会員ユーザーの月々の支払い基準によると、デジタル ヒューマンの価格は次のとおりです。最低額は数十元、最高額は約 100 ~ 200 元です。
低コストのデジタル人材が市場に大量に流入することにより、数百元相当のデジタルアバターが、たちまち莫大な利益をもたらす「富の本」として誇大宣伝されています。
主流のプラットフォームがオープンする毎深夜、大勢のデジタル担当者がライブ ブロードキャスト ルームに張り付いています。その後、エフェクトが偽物すぎる、市場が混乱しているなど、デジタルピープルに対する疑念が徐々に生じ、その結果、ユーザーエクスペリエンスが低下します。
業界の一部の人々は、ますます多くのプレーヤーが流入するにつれて、一部の起業家は技術的能力に限界があり、彼らが生み出すデジタルヒューマン製品の品質にばらつきが生じ、悪貨が良貨を駆逐することにつながりやすいと考えています。お金。
一方で、デジタル ヒューマンは、より基本的な問題を解決するために、より単純な環境で主に使用されますが、シーンを切り替えたり、複数回の対話に直面したりすると、質問に間違って答えたり、無限ループに陥ったりする可能性があり、そのため作業が制限されます。ユーザー体験。
一方で、大きなモデルの下でのデジタルの人間のインタラクティブな体験は、現実の人間のそれとは常に大きく異なります。たとえば、Sora によって生成されたコンテンツでは、物理原理や人間の指が増えたり減ったりすることは広く批判されており、これが心理的な「不気味の谷効果」をさらに引き起こす可能性があります。
これに関して、一部の専門家は、デジタル ヒューマンの外部擬人化効果を確保しながら、リアルタイム レンダリングに焦点を当ててユーザー インタラクション エクスペリエンスを最適化しながら、技術革新能力とユーザー エクスペリエンスをさらに向上させる必要があると考えています。 、光学キャプチャ、三次元再構築、インテリジェントな人間とコンピュータのインタラクションや自然言語処理、音声認識、コンピュータビジョン、生成AIやその他のテクノロジーなどの新興テクノロジーの研究と応用。
「業界が共同して突破しようとしている現在の技術目標は、『デジタル人材をより人間らしくし、人間のように考える方法』だ」と業界関係者は述べ、企業間の技術協力を加速している感情認識や意味理解などの側面におけるインタラクティブなデジタル ヒューマンの技術的問題が次の焦点となります。
この一連の課題はすべて技術的な側面を示しています。
2024 年「中国仮想デジタル人的影響指数報告書」は、2024 年 2 月末の時点で、国家知識産権局の「特許調査」データによると、デジタル分野における特許出願の数は、 2023 年の人間分野の件数は 544 件に達し、業界の強力な勢いとコア技術の研究開発における徹底的なイノベーションを反映しています。
2023年にデジタルヒューマン関連の特許を申請した機関から判断すると、百度やテンセントに代表される老舗インターネット大手、中国移動や中国工商銀行に代表される大手通信・金融機関、小兵公司、 Shiyou TechnologyやBlack Mirror Technologyに代表されるデジタル大手企業は、テクノロジー面で多勢力構造を形成している。
業界の大手メーカーは AI テクノロジーにおいて先行者利益を持っていますが、業界の急速な発展の過程において、テクノロジー自体に対して絶対的な障壁となる企業は存在しません。すべてのデジタル ヒューマン メーカーにとって、AIGC はチャンスをもたらすと同時に、課題に直面する出発点にもなります。
デジタル担当者は最前線に立っており、パイの一部を求める起業家が大量に流入しています。しかし、デジタルヒューマンは若いテクノロジーとしてまだ初期段階にあり、市場はまだ開拓途上であることは否定できません。
同じくレッドオーシャンに陥っているデジタルヒューマン企業にとって、考えるべきことは「低価格を実現する」ことではなく、テクノロジーの絶え間ない進歩によってデジタルヒューマンを「より人間らしく」することではないでしょうか。全体的な水位により、デジタル担当者は「生き残って」、より多くの価値を生み出すことができます。
以上が大型モデルの恩恵を受けて、デジタル人間は「より人間らしく」なったのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。