ホームページ テクノロジー周辺機器 AI 高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

Jun 16, 2024 pm 10:50 PM
業界

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

本ウェブサイトのAIxivコラムは、学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。


3D 生成モデリングの研究分野では、現在の 2 つの主要カテゴリの 3D 表現方法は、フィッティング機能が不十分な暗黙的なデコーダーに基づいているか、明確に定義された空間構造が欠如しており、主流の 3D と統合することが困難です。普及技術。中国科学技術大学、清華大学、マイクロソフト リサーチ アジアの研究者は、強力なフィッティング機能を備えた明示的に構造化された 3D 表現である GaussianCube を提案し、現在の主流の 3D 拡散モデルにシームレスに適用できます。

GaussianCube は、固定数の空きガウスを確実に使用しながら 3D アセットの高精度フィッティングを可能にする、新しい密度制約ガウス フィッティング アルゴリズムから始まります。これらのガウスは、最適なトランスポート アルゴリズムを使用して、事前定義されたボクセル グリッドに再配置されます。 GaussianCube の構造的特徴のおかげで、研究者は複雑なネットワーク設計を行わずに、標準 3D U-Net を拡散モデリングのバックボーン ネットワークとして直接適用できます。

さらに重要なことは、この記事で提案されている新しいフィッティング アルゴリズムは、3D 表現のフィッティング品質が同等である場合、必要なパラメータの数が従来の構造化表現に必要なパラメータの 10 分の 1 だけであることです。またはパラメータ量の 100 分の 1。このコンパクトさにより、3D 生成モデリングの複雑さが大幅に軽減されます。研究者たちは、無条件および条件付きの 3D オブジェクトの生成、デジタル アバターの作成、およびテキストから 3D コンテンツへの合成に関する広範な実験を行ってきました。

数値結果は、GaussianCube が以前のベースライン アルゴリズムと比較して最大 74% のパフォーマンス向上を達成していることを示しています。以下に示すように、GaussianCube は高品質の 3D アセットを生成できるだけでなく、非常に魅力的な視覚効果を提供し、3D 生成の汎用表現としての大きな可能性を十分に発揮します。図 1. 無条件に生成された結果。この記事の方法では、高品質で多様な 3D モデルを生成できます。入 図 2. 入力ポートレートに基づいてデジタル化体を作成した結果。この記事の方法では、入力ポートレートのアイデンティティ特徴情報を大幅に保持し、詳細な髪型と服装のモデリングを提供できます。入 図 3. 入力テキストに基づいて 3D アセットを作成した結果。この記事の方法では、テキスト情報と一致した結果を出力でき、複雑な幾何学的構造や詳細な材質をモデル化できます。図 4. カテゴリ条件によって生成された結果。この記事で生成された 3D アセットは、明確なセマンティクスと高品質の幾何学的構造とマテリアルを備えています。

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

  • 論文名: GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling
  • プロジェクトホームページ: https://gaussiancube.github.io/
  • 論文リンク: https://arxiv.org/ pdf/2403.19655
  • コードオープンソース: https://github.com/GaussianCube/GaussianCube
  • デモビデオ: https://www.bilibili.com/video/BV1zy411h7wB/

3D ジェネレーティブ モデリングに従来の NeRF をまだ使用しているのは何歳ですか?
これまでのほとんどの 3D 生成モデリング作業では、基礎となる 3D 表現として Neural Radiance Field (NeRF) のバリアントが使用されており、これは通常、明示的な構造化特徴表現と暗黙的な特徴デコーダーを組み合わせています。ただし、3D 生成モデリングでは、すべての 3D オブジェクトが同じ暗黙的な特徴デコーダーを共有する必要があるため、NeRF のフィッティング能力が大幅に弱まります。さらに、NeRF が依存するボリューム レンダリング テクノロジは計算の複雑さが非常に高いため、レンダリング速度が遅くなり、GPU メモリの消費量が非常に多くなります。最近、別の三次元表現手法である 3D ガウス スプラッティング (3DGS) が注目を集めています。 3DGS は強力なフィッティング機能、効率的なコンピューティング パフォーマンス、および完全に明示的な機能を備えているため、3 次元再構成タスクで広く使用されています。ただし、3DGS には明確に定義された空間構造がないため、現在の主流の生成モデリング フレームワークに直接適用することができません。
そこで、研究チームはGaussianCubeを提案しました。これは、強力なフィッティング機能を備えた、構造化され完全に明示的な革新的な 3 次元表現方法です。この記事で紹介する方法では、まず固定数の自由ガウスを使用して高精度のフィットを保証し、次にこれらのガウスを構造化されたボクセル グリッドに効率的に編成します。この明示的かつ構造化された表現により、研究者は、非構造化または暗黙的にデコードされた表現を使用する場合に必要となる複雑でカスタマイズされたネットワークを必要とせずに、U-Net などの標準 3D ネットワーク アーキテクチャをシームレスに採用できます。

同時に、最適な伝送アルゴリズムによる構造化された組織化により、隣接するガウス カーネル間の空間構造関係が最大限に維持され、研究者は古典的な 3D 畳み込みネットワークのみを使用して特徴を効率的に抽出できます。さらに重要なことは、高次元データ分布を扱う場合、拡散モデルのパフォーマンスが低いという以前の研究の結果を考慮すると、この論文で提案された GaussianCube は、高品質の再構成を維持しながら必要なパラメータの量を大幅に削減し、問題を大幅に軽減することです。これにより、分布モデリングに対する拡散モデルの圧力が排除され、3D 生成モデリングの分野に大幅なモデリング機能と効率の向上がもたらされます。

メソッド

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります GaussianCube フレームワークの概要

この記事のフレームワークは次のとおりです。 2 つの主要な段階: 表現の構築と 3 次元の拡散。表現構築フェーズでは、3D アセットのマルチビュー レンダリングが与えられると、密度制約付きガウス フィッティングが実行され、固定数の 3D ガウスが取得されます。続いて、最適化された転送により、3 次元ガウスが GaussianCube に構造化されます。 3D 拡散段階では、研究者らはガウス ノイズから GaussianCube を生成するために 3D 拡散モデルをトレーニングしました。

研究者は次のことを行う必要があります。生成モデリングに適した各 3D アセットの表現を作成します。生成フィールドではモデル化されたデータが均一な固定長であることが必要になることが多いことを考慮すると、元の 3DGS フィッティング アルゴリズムの適応密度制御では、さまざまなオブジェクトをフィッティングするために使用されるガウス カーネルの数が異なることになり、生成モデリングに大きな課題が生じます。非常に簡単な解決策は、単に適応密度制御を削除することですが、研究者らは、これによりフィッティングの精度が大幅に低下することを発見しました。本論文では、元の適応密度制御における枝刈り操作を保持しつつ、分割および複製操作に対して新しい制約処理を実行する、新しい密度制約フィッティング アルゴリズムを提案します。

具体的には、現在の反復に
ガウスが含まれていると仮定すると、研究者は、視点空間位置での勾配の大きさが事前定義されたしきい値 τ を超えるガウスを選択することによって、分割またはクローン操作の候補を特定します。これらの候補の数は、次のようにマークされます。
。事前定義された最大
ガウスを超えないように、最大​​の視点空間位置勾配を持つ
ガウスが分割または複製の候補から選択されます。フィッティングプロセスが完了した後、研究者らはレンダリング結果に影響を与えることなく目標数
を達成するために、α=0 のガウス分布を埋め込みました。この戦略のおかげで、同様の品質の既存の作品と比較して数桁少ないパラメータで高品質の表現を実現でき、拡散モデルのモデリングの難易度が大幅に軽減されます。
高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります
上記のフィッティングアルゴリズムを通じて得られたガウスはまだ明確な空間配置構造を持っていないため、後続の拡散モデルを効率的に行うことができません。データをモデル化します。この目的を達成するために、研究者らはガウスを事前定義された構造化ボクセル グリッドにマッピングして、ガウスに明確な空間構造を持たせることを提案しました。直観的に言えば、このステップの目標は、ガウスの空間的隣接性を可能な限り維持しながら、各ガウスをボクセルに「移動」することです。

研究者らは、これを最適伝送問題としてモデル化し、Jonker-Volgenant アルゴリズムを使用して対応するマッピング関係を取得し、最適伝送解に従ってガウスを対応するボクセルに編成して GaussianCube を取得し、位置を置き換えます。元のガウスの現在のボクセル中心のオフセットを使用して、拡散モデルの解空間を縮小します。最終的な GaussianCube 表現は構造化されるだけでなく、隣接するガウス間の構造的関係を最大限に維持するため、3D 生成モデリングの効率的な特徴抽出を強力にサポートします。

3 次元拡散段階では、この記事では 3 次元拡散モデルを使用して GaussianCube の分布をモデル化します。 GaussianCube の空間的に構造化された組織のおかげで、複雑なネットワークやトレーニング設計を必要とせずに、標準の 3D 畳み込みだけで、隣接するガウスの特徴を効果的に抽出して集約するのに十分です。したがって、研究者らは標準的な U-Net ネットワークの普及を利用し、元の 2D オペレータ (畳み込み、アテンション、アップサンプリング、ダウンサンプリングを含む) を 3D 実装に直接置き換えました。

この記事の 3 次元拡散モデルは、カテゴリ ラベル条件の生成、画像条件に基づいたデジタル アバターの作成、および画像条件に基づいた 3 次元デジタル アセットの生成など、生成プロセスを制御するためのさまざまな条件信号もサポートしています。文章。マルチモーダル条件に基づく生成機能により、モデルの適用範囲が大幅に拡大され、将来の 3D コンテンツ作成のための強力なツールが提供されます。

実験結果

研究者らはまず、ShapeNet Car データセットに対する GaussianCube のフィッティング能力を検証しました。実験結果は、ベースライン手法と比較して、GaussianCube が最も高速かつ最小限のパラメータで高精度の 3 次元オブジェクトのフィッティングを実現できることを示しています。

表 1. 空間構造、フィッティング品質、相対フィッティング速度、使用されるパラメーターの量に関する、ShapeNet Car 上のさまざまな 3 次元表現の数値比較。

は、異なるオブジェクトが暗黙的な特徴デコーダーを共有することを示します。すべてのメソッドは 30,000 回の反復で評価されます。図 8. ShapeNet Car 上のさまざまな 3D 表現のフィッティング機能の視覚的な比較。 * は、異なるオブジェクトが暗黙的な特徴デコーダーを共有することを示します。すべてのメソッドは 30,000 回の反復で評価されます。 高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

その後、研究者らは、ShapeNet、OmniObject3D、合成デジタル アバター データ セット、Objaverse データ セットを含む多数のデータ セットで GaussianCube ベースの拡散モデルの生成能力を検証しました。実験結果は、私たちのモデルが、無条件およびカテゴリ条件付きのオブジェクト生成、デジタル アバターの作成、およびテキストから 3D への合成において、数値メトリクスからビジュアル品質に至るまで、優れた結果を達成していることを示しています。特に、GaussianCube は、以前のベースライン アルゴリズムと比較して最大 74% のパフォーマンス向上を達成しました。

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

表 2. ShapeNet Car、Chair、および OmniObject3 のカテゴリ条件付き生成の定量的比較D.
️図 9. ShapeNet Car での無条件生成の定性的比較、議長。この記事の方法では、正確なジオメトリと詳細なマテリアルを生成できます。図 10. OmniObject3D でのカテゴリ条件生成の定性的比較。このメソッドは、明確なセマンティクスを持つ複雑なオブジェクトを生成できます。

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

図 11. 入力ポートレートに基づくデジタル アバター作成の定性的比較。この記事の方法では、入力ポートレートのアイデンティティの特徴、表情、アクセサリー、髪の詳細をより正確に復元できます。

高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回ります

表 4. 入力テキストに基づいた 3D アセットの作成の定量的な比較。推論時間は、単一の A100 を使用してテストされました。 Shap-E と LGM は、この記事の方法と同様の CLIP スコアを達成しましたが、それぞれ数百万のトレーニング データ (この記事ではトレーニングに 100,000 の 3 次元データのみを使用しました) と、以前の 2 次元ビンセント グラフ拡散モデルを使用しました。図 12. 入力テキストに基づいた 3D アセットの作成の定性的比較。この記事の方法では、入力テキストに基づいて高品質の 3D アセットを生成できます。

以上が高品質の 3D 生成に最も期待できるエピソードは? GaussianCube は 3D 生成において NeRF を総合的に上回りますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました DeepMind ロボットが卓球をすると、フォアハンドとバックハンドが空中に滑り出し、人間の初心者を完全に打ち負かしました Aug 09, 2024 pm 04:01 PM

でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した 初のメカニカルクロー!元羅宝は2024年の世界ロボット会議に登場し、家庭に入ることができる初のチェスロボットを発表した Aug 21, 2024 pm 07:33 PM

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう クロードも怠け者になってしまった!ネチズン: 自分に休日を与える方法を学びましょう Sep 02, 2024 pm 01:56 PM

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました 世界ロボット会議で「未来の高齢者介護の希望」を担う家庭用ロボットを囲みました Aug 22, 2024 pm 10:35 PM

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award ACL 2024 賞の発表: HuaTech による Oracle 解読に関する最優秀論文の 1 つ、GloVe Time Test Award Aug 15, 2024 pm 04:37 PM

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Li Feifei 氏のチームは、ロボットに空間知能を与え、GPT-4o を統合する ReKep を提案しました Sep 03, 2024 pm 05:18 PM

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

分散型人工知能カンファレンス DAI 2024 論文募集: エージェント デイ、強化学習の父であるリチャード サットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います 分散型人工知能カンファレンス DAI 2024 論文募集: エージェント デイ、強化学習の父であるリチャード サットン氏が出席します。 Yan Shuicheng、Sergey Levine、DeepMind の科学者が基調講演を行います Aug 22, 2024 pm 08:02 PM

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ

宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました 宏蒙スマートトラベルS9とフルシナリオ新製品発売カンファレンス、多数の大ヒット新製品が一緒にリリースされました Aug 08, 2024 am 07:02 AM

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

See all articles