2D 画像の 3D 再構成は、常に CV 分野のハイライトでした。
この問題を克服するために、さまざまなモデルが開発されてきました。
本日、シンガポール国立大学の学者らが共同で論文を発表し、この長年の問題を解決するための新しいフレームワーク Anything-3D を開発しました。
論文アドレス: https://arxiv.org/pdf/2304.10261.pdf
#Meta の「すべてを分割する」モデルの助けを借りて、Anything-3D は分割されたオブジェクトを直接生き生きとさせます。さらに、Zero-1-to-3 モデルを使用すると、コーギーをさまざまな角度から見ることができます。
# 文字の 3D 再構築も実行できます。
これは本当に画期的なものであると言えます。
何でも 3D!
現実世界では、さまざまな物体や環境が多様かつ複雑です。したがって、制約がなければ、単一の RGB 画像から 3D 再構成することは多くの困難に直面します。ここでは、シンガポール国立大学の研究者が、一連の視覚言語モデルと SAM (セグメント-エニシング) オブジェクト セグメンテーション モデルを組み合わせて、多機能で信頼性の高いシステムを生成しました。 -3D。
目的は、単一視点の条件下で 3D 再構成のタスクを完了することです。
BLIP モデルを使用してテクスチャ記述を生成し、SAM モデルを使用して画像内のオブジェクトを抽出し、テキスト → 画像拡散モデル Stable Diffusion を使用してオブジェクトを Nerf に配置します。 (神経放射線野) 。
その後の実験で、Anything-3D は強力な 3 次元再構成機能を実証しました。正確なだけでなく、幅広い用途に適用できます。
Anything-3D は、既存の方法の限界を解決する上で明らかな効果をもたらします。研究者らは、さまざまなデータセットでのテストと評価を通じて、この新しいフレームワークの利点を実証しました。
上の写真には、「コーギーが舌を出して何千マイルも走っている写真」と「その写真」が見られます。高級車に身を投じる銀翼の女神のイメージ」と「頭に青いロープをかぶった野原の茶色の牛のイメージ」。
これは、Anything-3D フレームワークが、あらゆる環境で撮影された単一ビューの画像を 3D 形式に巧みに復元し、テクスチャを生成できることを示す予備的なデモンストレーションです。
この新しいフレームワークは、カメラの視点やオブジェクトのプロパティが大きく変化しても、一貫して高精度の結果を提供します。
2D 画像から 3D オブジェクトを再構成することは、コンピューター ビジョンの分野の主題の中核であり、ロボット工学、自動運転、拡張現実、仮想現実に大きな影響を与えることを知っておく必要があります。 、3次元プリントなどに影響を与えます。
近年、ある程度の進歩は見られましたが、非構造化環境における単一画像オブジェクトの再構築というタスクは依然として非常に魅力的な問題であり、早急に解決する必要があります。
現在、研究者は、点群、グリッド、ボリューム表現など、単一の 2 次元画像から 1 つまたは複数のオブジェクトの 3 次元表現を生成する任務を負っています。 しかし、この問題は根本的に真実ではありません。 2 次元投影によって生じる固有の曖昧さのため、オブジェクトの 3 次元構造を明確に決定することは不可能です。 形状、サイズ、質感、外観の大きな違いと相まって、自然環境で物体を再構築することは非常に複雑です。さらに、現実世界の画像内のオブジェクトは遮蔽されることが多く、遮蔽された部分の正確な再構成が妨げられます。 同時に、照明や影などの変数もオブジェクトの外観に大きな影響を与える可能性があり、角度や距離の違いによって 2 次元投影に明らかな変化が生じることもあります。 難しいことについてはもう十分です。Anything-3D をプレイする準備ができました。 研究者らは論文の中で、視覚言語モデルとオブジェクト セグメンテーション モデルを統合して 2D オブジェクトを簡単に 3D に変換するこの画期的なシステム フレームワークを詳細に紹介しました。 このようにして、強力な機能と強力な適応性を備えたシステムになります。シングルビューの再構築?簡単です。 2 つのモデルを組み合わせることで、特定の画像の 3 次元テクスチャと幾何学形状を取得して決定することが可能だと研究者らは述べています。 Anything-3D は、BLIP モデル (ブートストラップ言語画像モデル) を使用して画像のテキスト説明を事前トレーニングし、SAM モデルを使用して画像の分布領域を特定します。オブジェクト。 次に、セグメント化されたオブジェクトとテキストの説明を使用して、3D 再構成タスクを実行します。 つまり、この論文では、事前学習済みの 2D テキスト→画像拡散モデルを使用して、画像の 3D 合成を実行します。さらに、研究者らは分別蒸留を使用して、画像専用の Nerf をトレーニングしました。 上の図は、3D 画像を生成するプロセス全体です。左上隅は 2D 元の画像で、最初に SAM を介してコーギーをセグメント化し、次に BLIP を介してテキストの説明を生成し、次に分別蒸留を使用してナーフを作成します。 研究者らは、さまざまなデータセットでの厳密な実験を通じて、このアプローチの有効性と適応性を実証し、同時に精度、堅牢性、一般化機能の点で既存の方法を上回りました。 研究者らはまた、自然環境における 3D オブジェクトの再構築における既存の課題の包括的かつ詳細な分析を実施し、新しいフレームワークがそのような問題をどのように解決できるかを調査しました。 最終的に、基本モデルにゼロ距離視覚と言語理解機能を統合することにより、新しいフレームワークはさまざまな現実世界の画像からオブジェクトを再構築し、正確かつ複雑かつ広範な画像を生成できます。適用可能な 3D 表現。 Anything-3D は、3D オブジェクト再構成の分野における大きな進歩であると言えます。 #
##緑の帽子をかぶったアヒル # 時代の涙で色あせた大砲 かわいい子豚 ミニ貯金箱 朱赤の4つ脚付きハイスツール ############### この新しいフレームワークは、単一ビュー画像内の領域をインタラクティブに識別し、最適化されたテキスト埋め込みオブジェクトで 2D を表現できます。最終的には、3D 対応の分別蒸留モデルを使用して、高品質の 3D オブジェクトを効率的に生成します。 ###### 要約すると、Anything-3D は、単一ビューの画像から自然な 3D オブジェクトを再構成できる可能性を示しています。 研究者らは、新しいフレームワークの 3D 再構成の品質はより完璧になる可能性があり、生成の品質を向上させるために常に努力していると述べています。 さらに、研究者らは、新しいビューの合成やエラーの再構成などの 3D データセットの定量的評価は現在提供されていないが、これらは将来の反復作業に含まれる予定であると述べました。 一方、研究者の最終目標は、このフレームワークを拡張して、疎なビューでのオブジェクトの回復など、より実際的な状況に対応できるようにすることです。 Wang は現在、シンガポール国立大学 (NUS) の ECE 学部のテニュアトラック助教授です。 シンガポール国立大学に入社する前は、スティーブンス工科大学の CS 学部で助教授を務めていました。 Stevens に入社する前は、イリノイ大学アーバナ シャンペーン校のベックマン研究所でトーマス ファン教授の画像形成グループで博士研究員を務めていました。 Wang は、パスカル・フア教授の監督下にあるローザンヌ工科大学 (EPFL) のコンピュータ ビジョン研究室で博士号を取得し、同大学から第一級優等で理学士号を取得しました。 2010 年に香港理工大学コンピュータ サイエンス学部で理学士号を取得。 著者について
以上がNUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。