大規模なマルチビュー ガウス モデル LGM: 5 秒で高品質の 3D オブジェクトを生成し、試用可能
メタバースにおける 3D クリエイティブ ツールの需要の高まりに応えて、最近では 3D コンテンツ生成 (3D AIGC) に大きな関心が集まっています。同時に、3D コンテンツの作成も品質とスピードにおいて大幅な進歩を遂げました。
現在のフィードフォワード生成モデルは 3D オブジェクトを数秒で生成できますが、トレーニング中に必要な集中的な計算によって解像度が制限され、生成されるコンテンツの品質が低くなります。そこで、高解像度、高品質の 3D オブジェクトをわずか 5 秒で生成できるのかという疑問が生じます。
この記事では、北京大学、南洋理工大学 S-Lab、上海人工知能研究所の研究者が、 新しいフレームワーク LGM を提案しました。 Large Gaussian Model を使用すると、単一視点の画像やテキスト入力から、わずか 5 秒で高解像度かつ高品質の 3 次元オブジェクトを生成できます。
現在、コードとモデルの重みはオープンソースです。研究者らは、誰もが試せるオンライン デモも提供しています。
- #論文タイトル: LGM: 高解像度 3D コンテンツ作成のための大規模マルチビュー ガウス モデル
- プロジェクトのホームページ: https://me.kiui.moe/lgm/
- コード: https://github.com/3DTopia/LGM
- 論文: https://arxiv.org/abs/2402.05054
- オンライン デモ: https://huggingface.co/spaces/ashawkey/LGM
このような目標を達成するために、研究者は次の 2 つの課題に直面しています。
- 限られた計算量での効率的な 3D 表現: 既存の 3D 生成作業では、3D 表現およびレンダリング パイプラインとして 3 プレーン ベースの NeRF が使用されており、シーンの高密度モデリングとレイ トレーシング ボリューム レンダリング テクノロジが大幅に制限されています。そのトレーニング解像度 ( 128×128) を使用すると、最終的に生成されるコンテンツのテクスチャがぼやけ、品質が低下します。
- 高解像度の 3D バックボーン生成ネットワーク: 既存の 3D 生成作業では、十分な密度を確保するためにバックボーン ネットワークとして高密度トランスを使用しています。パラメータは普遍的なオブジェクトをモデル化するために使用されますが、これによりトレーニングの解像度がある程度犠牲になり、最終的な 3 次元オブジェクトの品質が低下します。
この目的のために、この論文では、4 視点画像から高解像度の 3 次元表現を合成する新しい方法を提案します。高品質の Text-to-3D および Image-to-3D タスクをサポートするための画像からマルチパースペクティブ画像モデルへの変換。
LGM コア モジュールは大規模マルチビュー ガウス モデル です。ガウス スパッタリングからインスピレーションを得たこの方法では、バックボーン ネットワークとして効率的で軽量な非対称 U-Net を使用して、4 視点画像から高解像度のガウス プリミティブを直接予測し、最終的に任意の視野角からの画像をレンダリングします。
具体的には、バックボーン ネットワーク U-Net は 4 つの視点からの画像と対応するプラッカー座標を受け取り、複数の視点から固定数のガウス特徴を出力します。このガウス特徴のセットは最終的なガウス要素に直接融合され、微分可能なレンダリングを通じてさまざまな視野角からの画像が取得されます。このプロセスでは、クロスビュー セルフ アテンション メカニズムを使用して、計算オーバーヘッドを低く抑えながら、低解像度フィーチャ マップ上の異なるビュー間の相関モデリングを実現します。
まず、オブジャバース データセットでレンダリングされた 3 次元の一貫したマルチビュー画像がトレーニング フェーズで使用されます。一方、推論フェーズでは、既存のモデルを直接使用してテキストやテキストからマルチパースペクティブ画像を合成します。画像。モデルに基づいて合成された多視点画像には常に多視点の不一致の問題があるため、この領域のギャップを埋めるために、 この記事では、グリッドの歪みに基づいたデータ拡張戦略を提案します。 3 つの視点からの画像は、マルチビューの不一致をシミュレートするためにランダムな歪みを適用します。 2 番目の理由は、推論段階で生成された多視点画像は、カメラ視点の 3 次元ジオメトリの一貫性を厳密に保証していないため、 この記事また、3 つの視点からカメラのポーズをランダムに摂動させます。この現象をシミュレートするには、推論段階でモデルをより堅牢にします。 最後に、生成されたガウス プリミティブは微分可能レンダリングを通じて対応する画像にレンダリングされ、教師あり学習を通じて 2 次元画像上でエンドツーエンドで直接学習されます。 トレーニングが完了すると、LGM は既存の image-to-multiview または text-to-multi を通じて、高品質の Text-to-3D および Image-to-3D を実現できます。 -拡散モデルを表示するタスク。 同じ入力テキストまたは画像を指定すると、この方法ではさまざまな高品質の 3D モデルを生成できます。 下流のグラフィックス タスクをさらにサポートするために、研究者らは、生成されたガウス表現を滑らかで縞模様の表現に変換する効率的な方法も提案しました。テクスチャ メッシュ: 詳細については、元の論文を参照してください。
以上が大規模なマルチビュー ガウス モデル LGM: 5 秒で高品質の 3D オブジェクトを生成し、試用可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

最近、Webページにローカルにインストールされたフォントファイルを使用して、インターネットから無料のフォントをダウンロードし、システムに正常にインストールしました。今...

H5ページは、コードの脆弱性、ブラウザー互換性、パフォーマンスの最適化、セキュリティの更新、ユーザーエクスペリエンスの改善などの要因のため、継続的に維持する必要があります。効果的なメンテナンス方法には、完全なテストシステムの確立、バージョン制御ツールの使用、定期的にページのパフォーマンスの監視、ユーザーフィードバックの収集、メンテナンス計画の策定が含まれます。

H5ページ資料の主なソースは次のとおりです。1。プロの素材Webサイト(有料、高品質、明確な著作権)。 2。自家製の材料(高いユニーク性、しかし時間がかかる); 3。オープンソースの材料ライブラリ(無料、慎重にスクリーニングする必要があります); 4。写真/ビデオWebサイト(著作権確認が必要です)。さらに、統一された材料スタイル、サイズの適応、圧縮処理、著作権保護は、注意が必要な重要なポイントです。

要素の数が固定されていない場合、CSSを介して指定されたクラス名の最初の子要素を選択する方法。 HTML構造を処理するとき、あなたはしばしば異なる要素に遭遇します...

なぜマイナスマージンが場合によっては有効にならないのですか?プログラミング中、CSSの負のマージン(負...

H5(HTML5)は、マーケティングキャンペーンページ、製品ディスプレイページ、企業プロモーションマイクロウェブサイトなどの軽量アプリケーションに適しています。その利点は、クロスプラットフォームと豊富な対話性にありますが、その制限は複雑な相互作用とアニメーション、ローカルリソースアクセス、オフライン機能にあります。

Webデザインでテキストを徐々に短縮するディスプレイ効果を実装する、テキストの長さを徐々に短縮するために特別なテキスト表示効果を実現する方法は?この効果...

ブートがさまざまな理由によって引き起こされる可能性がある場合、「読み込み」に巻き込まれたPS:腐敗したプラグインまたは競合するプラグインを無効にします。破損した構成ファイルの削除または名前変更。不十分なプログラムを閉じたり、メモリをアップグレードしたりして、メモリが不十分であることを避けます。ソリッドステートドライブにアップグレードして、ハードドライブの読み取りをスピードアップします。 PSを再インストールして、破損したシステムファイルまたはインストールパッケージの問題を修復します。エラーログ分析の起動プロセス中にエラー情報を表示します。
