デジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラック テクノロジーを明らかにします
生成 AI が満載のデジタル ヒューマンを開きます。
9 月 23 日の夜、杭州アジア競技大会の開会式で、メイントーチの点灯は、集まった何億人ものオンラインデジタル聖火ランナーの「小さな炎」を示しました。銭塘江の上流でデジタル人間像が形成される。その後、デジタルヒューマン聖火ランナーと会場の6人目の聖火ランナーが一緒に聖火ステージまで歩き、一緒にメイントーチに点火しました。
# 開会式の核となる考え方として、デジタル聖火ランナー インターネットの聖火採火形式はホットな検索トピックとなり、人々の注目を集めています。 書き換えられた内容: 開会式の中心的なアイデアとして、デジタル リアリティ インターネットのトーチ点灯方法は熱い議論を引き起こし、人々の注目を集めました。多くの高度で複雑なテクノロジーが関与しています。最も重要な課題の1つは、デジタル人材をどのように「動かす」かということです。生成人工知能と大規模モデルの急速な発展に伴い、デジタル ヒューマン研究にさらに新しい変化が現れていることがはっきりとわかります
10 月初旬に開催される世界的なコンピューター ビジョン カンファレンス ICCV 2023 で、私たちは次のことに気づきました。 3D デジタル ヒューマン モーションの生成に関する研究が会議に含まれていることを明らかにしました。関連論文のタイトルは「拡散確率モデルによる人間とオブジェクトの相互作用の階層的生成」で、浙江大学とアント・グループが共同で出版した。
序文によると、この研究はデジタルヒューマンが長距離にわたって複雑な動きを合成するという問題をある程度解決し、オリジナルのモデルでは達成できない効果を達成できるとのことまたはパスの計画。デジタル ヒューマンの運転に関連するテクノロジーは、アジア競技大会での 1 億人のデジタル ヒューマンのオンライン配信にも使用されています。
多くの場合、仮想人間が自然にシーンを歩き回り、オブジェクトと対話できるように、特定の 3D シーンで 3D 人間のモーションを合成する必要があります。この効果は、AR/VR、映画制作、ビデオ ゲームに多くの用途があります。
ここで、従来のキャラクター制御モーション生成方法は、ユーザーの制御信号によって誘導される短期間または反復的なモーションを生成することを目的としていますが、新しい研究では、特定の開始位置とターゲット オブジェクト モデルを生成することに焦点を当てています。コンテンツ。
このアイデアはより効果的ですが、明らかにより困難です。まず、人間と物体の相互作用は一貫性を持つ必要があり、そのためには人間と物体の間の長距離相互作用をモデル化する能力が必要です。第 2 に、コンテンツ生成のコンテキストでは、実際の人間がターゲット オブジェクトに近づき、対話する方法は複数あるため、生成モデルはさまざまなサイズのモーションを合成できる必要があります。


具体的には、開始位置とターゲット オブジェクトが与えられると、著者は、動きの軌跡に沿って一連のノードを合成するためのマイルストーン生成モジュールを設計しました。各マイルストーンは、ローカルなポーズをエンコードし、人間の移動中の遷移を示します。これらのマイルストーンに基づいて、アルゴリズムはモーション生成モジュールを使用して完全なモーション シーケンスを生成します。これらのマイルストーンの存在のおかげで、長いシーケンスの生成からいくつかの短いモーション シーケンスの合成までを簡素化できます。
各マイルストーンのローカル姿勢は、時間一貫性のある結果を生成するためにグローバルな依存関係を考慮したトランスフォーマー モデルによって生成され、コヒーレントな動きをさらに促進します
研究者らは、階層的な生成フレームワークに加えて、さらに拡散モデルを使用して人間と物体の相互作用を合成しました。以前のモーション合成拡散モデルの中には、トランスフォーマーとノイズ除去拡散確率モデル (DDPM) を組み合わせたものもあります。
モーション シーケンスが長いため、新しい設定に直接適用するには多くの計算が必要となり、GPU メモリの爆発を引き起こす可能性があることに注意してください。新しい階層生成フレームワークは長期生成を複数の短いシーケンスの合成に変換するため、必要な GPU メモリは短期モーション生成と同じレベルまで削減されます。
したがって、研究者は Transformer DDPM を効果的に使用して長期モーション シーケンスを合成し、それによって生成品質を向上させることができます。
この目的を達成するために、研究者は図に示すような階層的な生成フレームワークを設計しました。以下に表示
まず、GoalNet を使用してオブジェクト上のインタラクション ターゲットを予測し、次にターゲット ポーズを生成して人間とオブジェクトのインタラクションを明示的にモデル化します。次に、マイルストーン生成モジュールを使用してマイルストーンの長さを推定し、それによって開始点からターゲットまでのマイルストーン軌道を生成し、マイルストーン ポーズを配置します。
このようにして、長距離モーションの生成が行われます。は、複数の短距離モーション生成の組み合わせに分解されます。最後に、著者らは、マイルストーン間の軌道を合成し、アクションを埋めるモーション生成モジュールを設計しました。
人工知能 (AI) 姿勢生成
研究者は、人が物体と対話して静止している姿勢を目標姿勢と呼んでいます。以前は、ほとんどの方法で cVAE モデルを使用して人間のポーズを生成していましたが、研究者らは、この方法が独自の研究であまりパフォーマンスが良くないことを発見しました。
この課題に対処するために、VQ-VAE モデルを採用してデータ分布をモデル化しました。このモデルは、離散表現を利用して、データを限られた点のセットにクラスタリングします。さらに、観察に基づくと、人間のさまざまなポーズには同様の特性がある可能性があります。たとえば、人が座っているとき、手の動きは異なる場合がありますが、足の位置は同じである場合があります。したがって、ジョイントを L (L = 5) 個の異なる非重複グループに分割しました。
#図 3 に示すように、ターゲット ポーズは独立したジョイント グループに分割されました。
最後のステップはアクションの生成です。研究者が使用した方法は、フレームごとにアクションを予測するのではなく、生成されたマイルストーンに基づいてシーケンス全体を階層的に合成することです。最初に軌道を生成し、次にアクションを合成します。具体的には、連続する 2 つのマイルストーン内で、最初に軌道を完了します。次に、連続するマイルストーン ジェスチャに基づいて動きを入力します。これら 2 つのステップは、それぞれ 2 つの Transformer DDPM を使用して完了します。
書き換えられた内容は次のとおりです: 他の製品に先んじる効果
研究者らは、SAMP データセットに対するさまざまな方法の結果を比較しました。論文で提案されている方法は、FD が低く、ユーザー調査スコアが高く、APD が高いことがわかります。さらに、彼らの方法は SAMP よりも高い軌道多様性を実現します。
#この新しい方法は、複雑なシーンでも満足のいく結果を生み出すことができます。この方法によって生成されたペネトレーション フレームの割合は 3.8% で、SAMP の割合は 4.9%です。#完全なリンク レイアウト
デジタル ヒューマンは、音声とセマンティクスのマルチモーダルな組み合わせです。 、ビジョンなどのダイナミックなテクノロジーの組み合わせ。近年、生成型 AI が画期的な進歩を遂げる一方で、デジタル ヒューマンの分野も飛躍的な発展を遂げています。これまで手作業が必要であったモデリング、生成インタラクション、レンダリングなどの要素が完全に人工化されつつあります。エンジニアは最適化を続けるにつれて、このテクノロジーの経験が活かされています。閉幕したばかりのアジア競技大会のオンライン聖火リレーが好例で、聖火ランナーになりたければアリペイアプリのミニプログラムをクリックするだけで済む。 開会式プロジェクトを円滑に進めるために、アント グループのエンジニアは数百機種の携帯電話で 10 万回以上のテストを実施し、20 万行以上のコードを入力して合格したと言われています。 Web3D インタラクティブ エンジン Galacean、AI デジタル ヒューマン、クラウド サービス、ブロックチェーンなどのテクノロジーを組み合わせることで、誰もがデジタル聖火ランナーとなり、聖火リレーに参加できるようになります。アジア大会デジタル聖火ランナー プラットフォームは数億人のユーザーにリーチでき、一般的なスマートフォン デバイスの 97% をサポートしています。 デジタル聖火ランナーがリアルに参加できるようにするために、Ant の技術チームは 58 個の顔を挟むコントローラーを開発しました。顔認識と AI アルゴリズムを使用することで、各人の顔の特徴に基づいてデジタル聖火ランナーの顔をマッピングできます。同時に顔の形、髪型、鼻、口、眉などを自由に調整して、自由な着せ替えを実現します。この技術は、2 兆通りの異なるデジタル画像の選択肢を提供できます。さらに、開会式点灯式の後、各デジタル トーチランナーは、各デジタル トーチにペイントされた独自のデジタル点火証明書を受け取ることができます。この証明書は分散テクノロジーを通じてブロックチェーンに保存されます。研究論文の内容とアジア競技大会のプロジェクトから、その背後に完全なデジタル ヒューマン テクノロジー システムによるサポートがあることが簡単にわかります。アントグループはデジタルヒューマン技術を積極的に研究しており、デジタルヒューマンのフルリンクコア技術の自主研究レイアウトを完成したことがわかりました。

- 適応性の高いレンダリング: 自社開発の Web3D レンダリング エンジン Galacean は一般的な携帯電話端末の 97% をカバーし、ニューラル レンダリングに関しては、動的駆動と静的モデリングを分離する NeRF フレームワークを備えています。が構築されており、デジタル ヒューマン ダイナミック ビデオ シーンでのアプリケーションが構築されています。
- インテリジェントなインタラクション: 事前トレーニングされた音色クローン作成に基づいて、分単位のオーディオ入力をサポートしてパーソナライズされたデジタル ヒューマンの音色を生成し、大規模なモデルに基づいてデジタル ヒューマン インタラクションをレイアウトします。
- アジア競技大会の開会式に先立って、中国情報通信技術院はデジタルヒューマン規格の最新のコンプライアンス検証結果を発表し、アントグループの霊京デジタルヒューマンプラットフォームが最初の製品となった。業界トップクラスの金融デジタルヒューマン評価に合格し、最高評価「Excellentレベル(L4)」を取得。
- Ant Digital People Platformは、アジア競技大会に加えて、Ant GroupのAlipay、デジタル金融、政府事務、Wufuなどのビジネスもサポートしており、今年はショートビデオ、ライブブロードキャスト、ミニ番組への適用を開始しました。プログラムやその他の通信事業者をパートナーに提供し、基本的なサービスを提供します。 近い将来、生成 AI を活用したデジタル ヒューマンがアップグレードし続けるにつれて、私たちはより多くのシナリオでより良いインタラクションを体験し、デジタルと実物が統合されたスマート ライフを真に迎えることになると予測できます。
以上がデジタル担当者がアジア競技大会のメイントーチに火を灯す、そしてこの ICCV 論文は Ant の生成 AI ブラック テクノロジーを明らかにしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ
