3D 編集を PS と同じくらい簡単に、新しいアルゴリズム GaussianEditor により 3D シーンの追加、削除、変更を数分で完了できます
3D編集はゲームやVRなどの分野で重要な役割を果たしていますが、これまでの3D編集は長時間かかる、制御性が悪いなどの問題があり、実際のシーンへの適用が困難でした。最近、南洋理工大学、清華大学、SenseTime が新しい 3D 編集アルゴリズムである GaussianEditor を提案しました。これは、これまでの 3D 編集作業を完全に超え、2 ~ 7 分で 3D シーンの制御可能で多様な編集を初めて実現しました。
近年、3D 編集分野の研究は一般的に神経放射線分野 (NeRF) に焦点を当てています。これは、NeRF が高い忠実度で 3D シーン モデリングを実行できるだけでなく、その暗黙的な特性によってスケーラビリティが大幅に向上し、従来の点群やメッシュ手法に比べて大きな利点があるためです。ただし、NeRF はシーン データをエンコードするために高次元多層パーセプトロン ネットワーク (MLP) に依存しているため、これにも一定の制限があります。これにより、シーンの特定の部分を直接変更することが難しくなり、画像の復元やシーンの構成などのタスクが複雑になります。この複雑さはトレーニング プロセスに影響を与えるだけでなく、実際のアプリケーションでの使用も制限します。その3D表現。ガウス スプラッティングは半年前に提案された新しいタイプの 3D 表現であり、3D や 4D の再構築など多くの 3D タスクにおいて NeRF を上回り、発表されるやいなや 3D 分野で広く注目を集め、今年の 3D 分野における最大の進歩。 Gaussian Splatting には優れた見通しと可能性があり、GaussianEditor はこの 3D 表現の編集を初めて実装しました。このプロジェクトはオープンソースであり、簡単に学習して使用できる WebUI インターフェイスを提供します。
論文アドレス: https://arxiv.org/abs/2311.14521
- ホームページアドレス: https://buaacyw.github.io/gaussian-editor/
- Gaussian Splatting には効率的なレンダリング アルゴリズムがありますが、表示表現として使用されます。かなりの数の課題。大きな問題は、正確で制御可能な編集に不可欠な、編集ターゲットを正確に特定する効率的な方法が存在しないことです。さらに、安定拡散などの生成拡散モデルなど、確率性の高い生成ガイダンスを使用してガウス スプレー (GS) を最適化するには、重大な課題があることが示されています。これは、ニューラル ネットワークのバッファリングの暗黙的な表現とは異なり、GS が損失のランダム性によって直接影響を受けるためである可能性があります。この直接的な暴露により更新が不安定になり、ガウス ポイントのプロパティがトレーニング中に直接変化します。さらに、GS の各トレーニング ステップには多数のガウス ポイントの更新が含まれる場合があり、このプロセスにはニューラル ネットワーク スタイルのバッファリング メカニズムがありません。これらの問題により、GS の過度の流動性により、トレーニング中の暗黙的表現と同じくらい細かい結果への収束が妨げられます。上記の問題を解決するために、チームは最初にガウス スプラッティング (GS) の正確な制御を実現するためにガウス セマンティック トラッキングを導入しました。ガウス セマンティック トラッキングでは、トレーニング プロセス中に編集する必要があるガウス ポイントを常に特定できます。これは、静的な 2D または 3D マスクに依存することが多い従来の 3D 編集方法とは異なります。トレーニング中に 3D モデルのジオメトリと外観が変化すると、これらのマスクは徐々に無効になります。ガウス セマンティック トラッキングは、2D セグメンテーション マスクを 3D ガウス ポイントに投影し、各ガウス ポイントにセマンティック ラベルを割り当てることにより、トレーニング プロセス全体にわたる追跡を実現します。トレーニング中にガウス ポイントが変化すると、これらのセマンティック ラベルにより、特定のターゲット ガウス ポイントの追跡が可能になります。ガウス セマンティック トラッキング アルゴリズムにより、ターゲット領域のみが変更されることが保証され、正確で制御された編集が可能になります。
下図の赤い領域は追跡対象領域です。セマンティック追跡領域は、トレーニング プロセスの有効性を確保するために動的に更新されます。
さらに、ガウス スパッタリング (GS) が高度にランダムに生成されると良好な結果を達成するのが難しいという大きな課題に対処するために、GaussinEditor は新しい GS 表現である階層型ガウス スパッタリング (階層型ガウス スプラッティング) を採用しました。 、HGS)。 HGS では、ガウス ポイントは、トレーニング中の高密度化順序に基づいてさまざまな世代に編成されます。初期の緻密化プロセス中に形成されたガウス ポイントは古い世代とみなされ、元の状態を維持し、移動性を低減することを目的として、より厳しい制約が課されます。対照的に、後の段階で形成されたガウス点は、適応度を向上させるための制約が少ない、またはまったくない若い世代として扱われます。 HGS の設計は、新しい世代の柔軟性を維持しながら、古い世代に制限を課すことにより、GS のモビリティを効果的に規制します。このアプローチにより、ニューラル ネットワークを通じて実装された暗黙的表現でバッファリング関数をシミュレートし、より良い結果に向けた継続的な最適化が可能になります。
#GaussianEditor は、これに基づいてガウス スパッタリング表現の追加および削除アルゴリズムを提案しました。ターゲットの削除に関して、チームはオブジェクトとシーンの間の境界面でアーティファクトを効果的に除去する特殊なローカル修復アルゴリズムを開発しました。ターゲットの追加に関しては、GaussianEditor は、ユーザーが提供したテキスト プロンプトと 2D マスクに基づいて、指定されたターゲットを指定された領域に追加できます。 GaussianEditor はまず、2D 画像修復アルゴリズムを利用して、追加するオブジェクトの単一ビュー イメージを生成します。この画像は、Image to 3D アルゴリズムを使用して 3D GS に変換されます。最後に、ターゲットがガウス シーンに組み込まれます。
#比較実験では、GaussianEditor は、視覚的な品質、定量的な指標、制御性、生成速度の点で以前の作品を大幅に上回りました
##チームはまた、アブレーション実験を通じて、提案したガウス意味追跡と階層的ガウス表現の有効性を検証しました
#GaussianEditor 高度な 3D 編集アルゴリズムとして、3D シーンを柔軟かつ迅速に編集することに焦点を当てており、ガウス スパッタリングの編集が実装されています。初めて。
アルゴリズムの主な機能は次のとおりです。
ガウス セマンティック トラッキング
: トレーニング プロセス中に編集が必要なガウス ポイントを継続的に特定し、ターゲット領域のみが編集されるようにします。
階層型ガウス スプラッティング (HGS)
- : これは、さまざまなトレーニング ステージで形成されたガウスを通じて、新しい GS 表現です。 GS シーンの流動性を効果的に管理し、暗黙的表現でニューラル ネットワークのバッファリング機能をシミュレートするためのポイント。 3D シーンの追加および削除アルゴリズム
- : GaussianEditor は、GS 用に特別に 3D シーンの追加および削除アルゴリズムを開発および設計しました。シーンからシーンを削除する 特定のオブジェクトを削除または追加します。
以上が3D 編集を PS と同じくらい簡単に、新しいアルゴリズム GaussianEditor により 3D シーンの追加、削除、変更を数分で完了できますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換:さまざまなスタイルのグラフが利用可能:より詳細な文字認識や位置決めも簡単に対応:文書理解の詳しい説明も可能:ご存知「文書理解」 「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。
