大型モデルの恩恵を受けて、デジタル人間は「より人間らしく」なったのでしょうか?
北京冬季オリンピック AI バーチャル ヒューマン手話アンカー、杭州アジア大会デジタル ヒューマン イグニション、新華社デジタル レポーター、デジタル宇宙飛行士シャオウェイ... ますます多くのデジタル ヒューマンが人々の中に現れるにつれ、生活の中でデジタル全体が人間の産業も多様かつ幅広い用途に向けて発展しており、さまざまな産業やさまざまなシナリオに急速に拡大しています。
C サイドの場合、デジタル担当者はユーザーがコンテンツを作成し、作業を支援します。たとえば、デジタル担当者は話し言葉を練習したり、デジタル担当者とゲームをしたりします。 B サイドのデジタル担当者向け これは企業の「ツールマン」であり、金融、映画、テレビ、電子商取引、生放送、その他の業界で産業の生産と業務効率を向上させるために使用されています。
デジタル人材は優れたビジネスですが、その大規模な導入には依然として人材、コスト、シナリオ、テクノロジーなどの困難に直面しています。その中で最も重要なのは技術的なボトルネックであり、デジタル担当者に「ただで肌が綺麗」という市場評価をいかに払拭させるかが大きな課題となっている。
しかし、大型モデルの登場により、デジタルヒューマンの開発は新たなチャンスをもたらしているようです。
1. 大規模モデルがデジタル担当者に力を与える
業界にとって、デジタル担当者自体は新しいものではありません。過去の長い間、デジタル ヒューマンの見た目の観点から忠実度の高いプレゼンテーションを追求するには、プロレベルの映画を作成するのと同じくらいの制作コストがかかりました。
UBSが発表したデジタルヒューマン調査報告書によると、高度なバーチャルキャラクターの平均初期投資コストは3,000万元で、その後、撮影、吹き替え、編集を完了するには実際のチームが必要になるとのこと。 Lehua EntertainmentのバーチャルガールズグループA-SOULを例に挙げると、シングルの制作費は200万元に達し、オフラインコンサートの費用は2,000万元に達しました。
しかし、この高コストの問題は、デジタルヒューマンインタラクションの影響の問題を解決するものではありません。知性が欠如しているため、デジタルヒューマンというよりは魂のないデジタルレザーケースに似ています。
コストが高く、インタラクション効果が低いため、デジタル ヒューマンの使用はメーカーや大企業顧客内の実験プロジェクトに限られてきました。
したがって、学習機能を備えた生成大規模モデルがコンテンツ制作パラダイムの主導権を握るにつれて、より広範囲の中小企業ユーザーをターゲットにし、大規模実装を優先する安価なデジタルヒューマンが実現可能なソリューションになりました。 。
ある人工知能研究者によると、大規模モデルによるデジタル ヒューマンの再構築と権限付与は、主にコスト削減と効率向上に反映されます。
技術的な観点から見ると、デジタル ヒューマンの構築は主にモデリング、駆動、レンダリングに分けられます。従来のデジタル ヒューマンは、主にコンピュータ グラフィックス テクノロジに依存して現実の人物の動きをキャプチャします。これには、大量の現実の人物データの収集と詳細なモデリングが必要であり、時間がかかり、効率が低く、コストが高くなります。
現在、ディープラーニング モデル、アクション シミュレーション、感情シミュレーション、その他のテクノロジに基づいた AI アルゴリズムによる大規模モデルのサポートにより、数分の実写ビデオと数時間のトレーニングだけで済みます。リアルなデジタル人物を生成するための大規模なモデルを使用すると、制作コストが大幅に削減されます。
デジタル ヒューマンのコストが削減されるだけでなく、効率も大幅に向上します。
大型モデルが登場する前は、デジタル ヒューマンは外観に小さな違いがあり、入力された統一スクリプトに基づいて「スクリプト化された」質問に答えることしかできませんでした。
大型モデルの強化により、デジタル ピープルは「魂」を持ち、外観や機能をカスタマイズできるだけでなく、インテリジェンスやインタラクティブ性も大幅に向上しました。たとえば、一部のライブ ブロードキャスト配信シナリオでは、デジタル担当者はすでに視聴者と基本的な対話を行うことができます。
たとえば、Baidu Intelligent Cloud がリリースした Xilin Digital Human は、大規模モデルのサポートにより、ライブ放送室の構築を 15 分で迅速に完了し、製品の機能に合わせたスピーチを自動的に生成し、開始することができます。インテリジェントなインタラクティブな Q&A。
あるケータリング ブランドのライブ ブロードキャスト ルームでは、Xilin デジタル ヒューマン アンカーが、砕氷船の開始、福利厚生放送、ウォームアップ スピーチ、注文を促すスキルなどを含む、ライブ ブロードキャストのスピーチ スキルを自動的に生成します。現実の人々とXi Lingデジタルの人々の間のこのリレーライブブロードキャストでは、ユーザーはまったく気づきませんでした。
さらに驚くべきことは、実際の 6 時間のライブ ブロードキャストの比較では、デジタル アンカーは本物のアンカーの GMV の 85% を獲得するのに、本物のアンカーのコストの 15% しか必要としなかったことです。
商品のライブ ストリーミングに加えて、Baidu Intelligent Cloud Xiling は、大規模なモデルを完全に再構築する中国初のデジタル ヒューマン プラットフォームとして、企業に 2D の現実的な人物、3D のリアルなポートレート、および 3D の超現実的なポートレートを提供することもできます。ビデオ制作、デジタル従業員、デジタルヒューマンスポークスマン、その他のアプリケーションを実現します。
たとえば、XiLing プラットフォームでは、ライブ ビデオにわずか 5 分、ポートレートのトレーニングに 30 分かかり、100 文を録音し、専用のサウンド ライブラリを 1 日 24 時間生成します。ライブティーチングのコストは、従来はわずか 30.% で、記録効率は 20 倍に向上しました。
大型モデルによって再形成され権限を与えられたデジタル担当者が、価格の高さやインタラクティブ性の低さなどの問題をある程度解決し、短いビデオやライブに出演することが増えていることを見つけるのは難しくありません。放送室。
同時に、デジタル担当者は、銀行のファイナンシャル プランナー、弁護士、教師、亡くなった有名人など、より多くの「アイデンティティ」に向けて動き始めています...デジタル担当者は、なりたい人物になりつつあり、これも同様です。混雑したトラックは新たなチャンスをもたらします。
2. デジタル ピープルをより「人間」らしくする
大規模モデルの出現により、デジタル ピープルは「生まれ変わ」り、今日最も注目されている起業家コースの 1 つになりました。
現在、市場にはデジタル ヒューマン メーカーの 2 つの主要なカテゴリがあります。1 つは、Baidu、Tencent、Huawei などに代表されるテクノロジー大手で、大型モデルでの独自の利点に基づいてデジタル ヒューマン製品を開発および発売します。 Baidu、Tencent、Huawei などに代表されるテクノロジー大手。Silicon Intelligence、Mobvoi、Xiangxin Technology に代表される中小規模のメーカー。
人工知能分野の多くの投資家は、AIGC (生成人工知能) はまだ初期段階にあり、利益を生み出すために実装できるものは多くないと述べています。デジタル担当者は数少ない商用化経路の 1 つであり、すでに収益性の高いプロジェクトを抱えています。
しかし、多数の起業家が流入するにつれて、業界の競争は熾烈かつ均質になり、トラックは徐々に混雑し複雑になってきました。
インボリューションの現れの 1 つは、価格がどんどん下がっていることです。現在、ほとんどの 2D デジタル人間の価格は千元のレベルに下がり、中には数百元しかかからないものさえあります。
360 グループのデジタル ヒューマン マーケティング サービスは、インテリジェント マーケティング クラウド プラットフォームのサポート SaaS サービスを通じて顧客に宣伝されていることがわかります。会員ユーザーの月々の支払い基準によると、デジタル ヒューマンの価格は次のとおりです。最低額は数十元、最高額は約 100 ~ 200 元です。
低コストのデジタル人材が市場に大量に流入することにより、数百元相当のデジタルアバターが、たちまち莫大な利益をもたらす「富の本」として誇大宣伝されています。
主流のプラットフォームがオープンする毎深夜、大勢のデジタル担当者がライブ ブロードキャスト ルームに張り付いています。その後、エフェクトが偽物すぎる、市場が混乱しているなど、デジタルピープルに対する疑念が徐々に生じ、その結果、ユーザーエクスペリエンスが低下します。
業界の一部の人々は、ますます多くのプレーヤーが流入するにつれて、一部の起業家は技術的能力に限界があり、彼らが生み出すデジタルヒューマン製品の品質にばらつきが生じ、悪貨が良貨を駆逐することにつながりやすいと考えています。お金。
一方で、デジタル ヒューマンは、より基本的な問題を解決するために、より単純な環境で主に使用されますが、シーンを切り替えたり、複数回の対話に直面したりすると、質問に間違って答えたり、無限ループに陥ったりする可能性があり、そのため作業が制限されます。ユーザー体験。
一方で、大きなモデルの下でのデジタルの人間のインタラクティブな体験は、現実の人間のそれとは常に大きく異なります。たとえば、Sora によって生成されたコンテンツでは、物理原理や人間の指が増えたり減ったりすることは広く批判されており、これが心理的な「不気味の谷効果」をさらに引き起こす可能性があります。
これに関して、一部の専門家は、デジタル ヒューマンの外部擬人化効果を確保しながら、リアルタイム レンダリングに焦点を当ててユーザー インタラクション エクスペリエンスを最適化しながら、技術革新能力とユーザー エクスペリエンスをさらに向上させる必要があると考えています。 、光学キャプチャ、三次元再構築、インテリジェントな人間とコンピュータのインタラクションや自然言語処理、音声認識、コンピュータビジョン、生成AIやその他のテクノロジーなどの新興テクノロジーの研究と応用。
「業界が共同して突破しようとしている現在の技術目標は、『デジタル人材をより人間らしくし、人間のように考える方法』だ」と業界関係者は述べ、企業間の技術協力を加速している感情認識や意味理解などの側面におけるインタラクティブなデジタル ヒューマンの技術的問題が次の焦点となります。
この一連の課題はすべて技術的な側面を示しています。
2024 年「中国仮想デジタル人的影響指数報告書」は、2024 年 2 月末の時点で、国家知識産権局の「特許調査」データによると、デジタル分野における特許出願の数は、 2023 年の人間分野の件数は 544 件に達し、業界の強力な勢いとコア技術の研究開発における徹底的なイノベーションを反映しています。
2023年にデジタルヒューマン関連の特許を申請した機関から判断すると、百度やテンセントに代表される老舗インターネット大手、中国移動や中国工商銀行に代表される大手通信・金融機関、小兵公司、 Shiyou TechnologyやBlack Mirror Technologyに代表されるデジタル大手企業は、テクノロジー面で多勢力構造を形成している。
業界の大手メーカーは AI テクノロジーにおいて先行者利益を持っていますが、業界の急速な発展の過程において、テクノロジー自体に対して絶対的な障壁となる企業は存在しません。すべてのデジタル ヒューマン メーカーにとって、AIGC はチャンスをもたらすと同時に、課題に直面する出発点にもなります。
3. 結論
デジタル担当者は最前線に立っており、パイの一部を求める起業家が大量に流入しています。しかし、デジタルヒューマンは若いテクノロジーとしてまだ初期段階にあり、市場はまだ開拓途上であることは否定できません。
同じくレッドオーシャンに陥っているデジタルヒューマン企業にとって、考えるべきことは「低価格を実現する」ことではなく、テクノロジーの絶え間ない進歩によってデジタルヒューマンを「より人間らしく」することではないでしょうか。全体的な水位により、デジタル担当者は「生き残って」、より多くの価値を生み出すことができます。
以上が大型モデルの恩恵を受けて、デジタル人間は「より人間らしく」なったのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究

7月5日のこのウェブサイトのニュースによると、グローバルファウンドリーズは今年7月1日にプレスリリースを発行し、自動車とインターネットでの市場シェア拡大を目指してタゴール・テクノロジーのパワー窒化ガリウム(GaN)技術と知的財産ポートフォリオを買収したことを発表した。モノと人工知能データセンターのアプリケーション分野で、より高い効率とより優れたパフォーマンスを探求します。生成 AI などのテクノロジーがデジタル世界で発展を続ける中、窒化ガリウム (GaN) は、特にデータセンターにおいて、持続可能で効率的な電力管理のための重要なソリューションとなっています。このウェブサイトは、この買収中にタゴール・テクノロジーのエンジニアリングチームがGLOBALFOUNDRIESに加わり、窒化ガリウム技術をさらに開発するという公式発表を引用した。 G
