2022 淘宝創造祭 3D ライブ仮想キャンプ技術のハイライトが明らかに
2022 年 8 月 24 日に、タオバオ メーカー フェスティバルがデビューします!次世代のインターネット没入型ショッピング体験を探求するために、このクリエーションフェスティバルでは、オフラインの広州交易会展示ホールに20,000平方メートルのパノラマの「フューチャーキャンプ」を建設することに加えて、初めてオンラインの仮想インタラクティブスペースも立ち上げました。オンラインで数万人が同時に参加できる「3D Crazy」 街づくりフェスティバル バーチャルキャンプ」。
3D バーチャル キャンプでは、ユーザーは高解像度のゲーム テクスチャを軽量で体験し、仮想キャラクターとして「3D 人物とグッズ ヤード」の世界に参加し、プレイヤーや 3D グッズと対話できます。遊びと創造を愛する新世代の消費者グループの要求に応え、革新的なテクノロジーで新しい消費者体験をもたらします。
3D ライブ仮想キャンプの体験と技術的なハイライトを見てみましょう:
軽量裸眼 3D「リアル ゲーム」
3D ゲームを気に入ったら、クライアントは数ギガバイトをダウンロードしましたが、新しいゲームをプレイしたいときにアンインストールする必要があり、メモリを消費しすぎました。 Creation Festival の仮想キャンプでは、裸眼 3D、インタラクティブ、ライブ ストリーミング、高解像度の「ゲーム」をすぐに読み込むことができ、購入することもでき、タオバオ アプリは「まったく大きくなっていません」携帯電話へのロード速度は「シュー」です~
▐ 技術ハイライト: クラウド コストの課題
モバイルでの 3D ゲーム アプリケーションの従来の開発最終テストで数十、数百メガバイトのゲーム エンジンを統合するには、数ギガバイトのマテリアル リソースをダウンロードする必要がありますが、これは現時点でタオバオ アプリでは非現実的です。クラウド レンダリングを使用すると、この問題をうまく解決できます。クラウドの強力な GPU の助けを借りて、ユーザーは高解像度で複雑なシーンのレンダリングを完了できます。ユーザーは、大きなリソース ファイルをダウンロードしたり、コンテンツをインストールしたりする必要はありません。必要なのは、リアルタイムでレンダリングされたメディアを再生します。
しかし、ここでの最大の問題は、クラウド レンダリング マシンのコストです。クラウド レンダリング マシンのコストを削減するために、クラウド レンダリングに加えて、モデル サーフェスの削減、DP マージ、テクスチャの最適化、ビデオ素材の解像度の削減などのパフォーマンスの最適化戦略も実行します。マシンのスケジューリングに関しては、マシンの使用率を最大化するために、ビジネス シナリオに基づいて時間ベースの動的な拡張および縮小戦略が開発されました。
3D 人物と 3D 製品が 3D 仮想世界で初めて出会う
かつて「淘宝生活」で着飾った 3D ユーザーが初めて小さな家から「歩いて」出ました時間が来て、Creation Festivalのライブ3Dバーチャルキャンプに来ました。ここでは、自由にジャンプしたり、たき火を起こしたり、3D 製品を閲覧したり、販売者のライブ ブロードキャストを視聴したり、プレイヤーと交流したりすることができます。 3D 人物、3D 製品、3D 環境を組み合わせて、臨場感あふれる素晴らしいキャンプ アドベンチャー体験を提供します。
▐ 技術的なハイライト: 人と物資のヤードの建設と交流
人々間の交流。 Taobao Life の 3D キャラクターを 3D 仮想世界に配置するには、まず一定のアセット変換とレンダリングのコストが必要です。ユーザーがキャンプ内を走り回るには、ユーザーの位置がリアルタイムで同期されます。ユーザーのリアルタイムローミングのために、フレーム同期技術を使用して、ユーザーの位置情報を一定の頻度で更新します。理想的にはユーザーはスタックを感じませんが、ネットワークの混雑により、必然的にフレーム間のジッターが発生します。同期時間が一定の間隔を超えると、ジャンプの原因になります。この欠点を補うために、キャラクターの描画時に動き補償アルゴリズムを使用していますが、これは簡単に言うと、アルゴリズムのシミュレーションを使用して、ユーザーの位置の動きの遷移をより滑らかにします。同時に、インタラクティブデータの同期に関しては、AOIグリッドアルゴリズムが採用され、同じ画面上の複数人のデータ同期の問題を解決します。これにより、仮想世界で 3D キャラクターがよりスムーズに動作するようになります。
▐ 技術的なハイライト: コンテンツ制作とクラウド レンダリングのリアルタイム送信
クラウドでは、リアルタイムの画像レンダリングに Unreal Engine を使用し、それを動的なカメラの動き、動的なステージ照明、マルチビュー キャラクターやパーティクル エフェクトなどのテクノロジーにより、画像がよりクールに見え、ユーザー インタラクションの感覚がより強くなります。ユーザーの携帯電話に高精細な映像を伝送するには、画質、遅れ、遅延のバランスを総合的に考慮する必要があり、タオバオとアリババクラウドが共同で構築した伝送ネットワーク「GRTN」と自社が構築した伝送網を活用しています。 -開発されたエンコードおよびデコードアルゴリズムにより、画質の鮮明さを最大限に確保できます。
インタラクティブな仮想画面はフリーズしません
淘宝網アンカーの生放送ルームで「3、2、1、つかみ始めろ!」とカウントダウンしながらウルトラのスリルを感じたことがあるでしょう。 -低遅延のフラッシュ販売。ただし、画面の外にいるあなたは、インタラクションを通じてライブブロードキャストルームのホストの行動に直接介入することはできません。 3Dバーチャルキャンプでは、踊って挨拶したり、加盟店の3D商品をクリックしたり、お気に入りのアンカーの説明を見たりすることができ、まさに「同一フレーム内で加盟店とアンカーとコミュニケーション」が可能です。
▐ 技術ハイライト: フルリンクの超低遅延
非干渉画像伝送とは異なり、超低遅延と滑らかさがインタラクティブに実現されます。経験上、ユーザー指示のアップストリーム化、リアルタイム画像のレンダリングを完了し、レンダリングされた画像をユーザーの携帯電話に 100 ミリ秒以内に返す必要があります。まず、ユーザーのマシン、ネットワーク、アクセスポイントの状況を総合的に考慮して、ユーザーに最も近いプッシュノードを動的に選択し、クラウドプッシュ戦略(定義やエンコード方式の選択を含む)を調整する必要があります。第 2 に、送信プロセス中に、リンク全体の遅延が適切な位置に達し、最終的には仮想的な相互作用が達成されるように、リアルタイム帯域幅フィードバック、FEC、動的バッファなどの弱いネットワーク制御戦略を使用してネットワーク ジッターに対処する必要があります。スムーズなインタラクティブなエクスペリエンスを保証します。
結論
今回のCreation Festival 3Dバーチャルキャンプは、タオバオの仮想インタラクティブ空間「3D Crazy City」シリーズ初のオンラインの試みです。次に、クラウド リアルタイム レンダリングと XR/CG テクノロジーを組み合わせて、仮想シーンのカスタマイズを実現し、大規模なリアルタイム ユーザー インタラクションをサポートし、より没入型のインタラクティブ エクスペリエンスを消費者に提供します。
以上が2022 淘宝創造祭 3D ライブ仮想キャンプ技術のハイライトが明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューター グラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリング アルゴリズムにより、3DGS はリアルタイム レンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。 。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

上記および筆者の個人的な理解: 現在、自動運転システム全体において、認識モジュールが重要な役割を果たしている。道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる。下流の規制および制御モジュール自動運転システムでは、タイムリーかつ正確な判断と行動決定が行われます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェア コストが低く導入が容易であるため、業界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

StableDiffusion3 の論文がついに登場しました!このモデルは2週間前にリリースされ、Soraと同じDiT(DiffusionTransformer)アーキテクチャを採用しており、リリースされると大きな話題を呼びました。前バージョンと比較して、StableDiffusion3で生成される画像の品質が大幅に向上し、マルチテーマプロンプトに対応したほか、テキスト書き込み効果も向上し、文字化けが発生しなくなりました。 StabilityAI は、StableDiffusion3 はパラメータ サイズが 800M から 8B までの一連のモデルであると指摘しました。このパラメーター範囲は、モデルを多くのポータブル デバイス上で直接実行できることを意味し、AI の使用を大幅に削減します。

自動運転では軌道予測が重要な役割を果たしており、自動運転軌道予測とは、車両の走行過程におけるさまざまなデータを分析し、将来の車両の走行軌跡を予測することを指します。自動運転のコアモジュールとして、軌道予測の品質は下流の計画制御にとって非常に重要です。軌道予測タスクには豊富な技術スタックがあり、自動運転の動的/静的知覚、高精度地図、車線境界線、ニューラル ネットワーク アーキテクチャ (CNN&GNN&Transformer) スキルなどに精通している必要があります。始めるのは非常に困難です。多くのファンは、できるだけ早く軌道予測を始めて、落とし穴を避けたいと考えています。今日は、軌道予測に関するよくある問題と入門的な学習方法を取り上げます。関連知識の紹介 1. プレビュー用紙は整っていますか? A: まずアンケートを見てください。

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現在のマルチモーダル大規模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、将来の状態を予測し、環境と安全に対話する車両の能力に直接影響を与えるため、AV にとって重要です。現在のマルチモーダル大規模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の画像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。
