目次
著者について
ホームページ テクノロジー周辺機器 AI NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

Apr 26, 2023 pm 05:37 PM
3d 開発する

2D 画像の 3D 再構成は、常に CV 分野のハイライトでした。

この問題を克服するために、さまざまなモデルが開発されてきました。

本日、シンガポール国立大学の学者らが共同で論文を発表し、この長年の問題を解決するための新しいフレームワーク Anything-3D を開発しました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

論文アドレス: https://arxiv.org/pdf/2304.10261.pdf

#Meta の「すべてを分割する」モデルの助けを借りて、Anything-3D は分割されたオブジェクトを直接生き生きとさせます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

さらに、Zero-1-to-3 モデルを使用すると、コーギーをさまざまな角度から見ることができます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

# 文字の 3D 再構築も実行できます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

これは本当に画期的なものであると言えます。

何でも 3D!

現実世界では、さまざまな物体や環境が多様かつ複雑です。したがって、制約がなければ、単一の RGB 画像から 3D 再構成することは多くの困難に直面します。

ここでは、シンガポール国立大学の研究者が、一連の視覚言語モデルと SAM (セグメント-エニシング) オブジェクト セグメンテーション モデルを組み合わせて、多機能で信頼性の高いシステムを生成しました。 -3D。

目的は、単一視点の条件下で 3D 再構成のタスクを完了することです。

BLIP モデルを使用してテクスチャ記述を生成し、SAM モデルを使用して画像内のオブジェクトを抽出し、テキスト → 画像拡散モデル Stable Diffusion を使用してオブジェクトを Nerf に配置します。 (神経放射線野) 。

その後の実験で、Anything-3D は強力な 3 次元再構成機能を実証しました。正確なだけでなく、幅広い用途に適用できます。

Anything-3D は、既存の方法の限界を解決する上で明らかな効果をもたらします。研究者らは、さまざまなデータセットでのテストと評価を通じて、この新しいフレームワークの利点を実証しました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

上の写真には、「コーギーが舌を出して何千マイルも走っている写真」と「その写真」が見られます。高級車に身を投じる銀翼の女神のイメージ」と「頭に青いロープをかぶった野原の茶色の牛のイメージ」。

これは、Anything-3D フレームワークが、あらゆる環境で撮影された単一ビューの画像を 3D 形式に巧みに復元し、テクスチャを生成できることを示す予備的なデモンストレーションです。

この新しいフレームワークは、カメラの視点やオブジェクトのプロパティが大きく変化しても、一貫して高精度の結果を提供します。

2D 画像から 3D オブジェクトを再構成することは、コンピューター ビジョンの分野の主題の中核であり、ロボット工学、自動運転、拡張現実、仮想現実に大きな影響を与えることを知っておく必要があります。 、3次元プリントなどに影響を与えます。

近年、ある程度の進歩は見られましたが、非構造化環境における単一画像オブジェクトの再構築というタスクは依然として非常に魅力的な問題であり、早急に解決する必要があります。

現在、研究者は、点群、グリッド、ボリューム表現など、単一の 2 次元画像から 1 つまたは複数のオブジェクトの 3 次元表現を生成する任務を負っています。

しかし、この問題は根本的に真実ではありません。

2 次元投影によって生じる固有の曖昧さのため、オブジェクトの 3 次元構造を明確に決定することは不可能です。

形状、サイズ、質感、外観の大きな違いと相まって、自然環境で物体を再構築することは非常に複雑です。さらに、現実世界の画像内のオブジェクトは遮蔽されることが多く、遮蔽された部分の正確な再構成が妨げられます。

同時に、照明や影などの変数もオブジェクトの外観に大きな影響を与える可能性があり、角度や距離の違いによって 2 次元投影に明らかな変化が生じることもあります。

難しいことについてはもう十分です。Anything-3D をプレイする準備ができました。

研究者らは論文の中で、視覚言語モデルとオブジェクト セグメンテーション モデルを統合して 2D オブジェクトを簡単に 3D に変換するこの画期的なシステム フレームワークを詳細に紹介しました。

このようにして、強力な機能と強力な適応性を備えたシステムになります。シングルビューの再構築?簡単です。

2 つのモデルを組み合わせることで、特定の画像の 3 次元テクスチャと幾何学形状を取得して決定することが可能だと研究者らは述べています。

Anything-3D は、BLIP モデル (ブートストラップ言語画像モデル) を使用して画像のテキスト説明を事前トレーニングし、SAM モデルを使用して画像の分布領域を特定します。オブジェクト。

次に、セグメント化されたオブジェクトとテキストの説明を使用して、3D 再構成タスクを実行します。

つまり、この論文では、事前学習済みの 2D テキスト→画像拡散モデルを使用して、画像の 3D 合成を実行します。さらに、研究者らは分別蒸留を使用して、画像専用の Nerf をトレーニングしました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

上の図は、3D 画像を生成するプロセス全体です。左上隅は 2D 元の画像で、最初に SAM を介してコーギーをセグメント化し、次に BLIP を介してテキストの説明を生成し、次に分別蒸留を使用してナーフを作成します。

研究者らは、さまざまなデータセットでの厳密な実験を通じて、このアプローチの有効性と適応性を実証し、同時に精度、堅牢性、一般化機能の点で既存の方法を上回りました。

研究者らはまた、自然環境における 3D オブジェクトの再構築における既存の課題の包括的かつ詳細な分析を実施し、新しいフレームワークがそのような問題をどのように解決できるかを調査しました。

最終的に、基本モデルにゼロ距離視覚と言語理解機能を統合することにより、新しいフレームワークはさまざまな現実世界の画像からオブジェクトを再構築し、正確かつ複雑かつ広範な画像を生成できます。適用可能な 3D 表現。

Anything-3D は、3D オブジェクト再構成の分野における大きな進歩であると言えます。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

##緑の帽子をかぶったアヒル

# 時代の涙で色あせた大砲 かわいい子豚 ミニ貯金箱 朱赤の4つ脚付きハイスツール ############### この新しいフレームワークは、単一ビュー画像内の領域をインタラクティブに識別し、最適化されたテキスト埋め込みオブジェクトで 2D を表現できます。最終的には、3D 対応の分別蒸留モデルを使用して、高品質の 3D オブジェクトを効率的に生成します。 ######

要約すると、Anything-3D は、単一ビューの画像から自然な 3D オブジェクトを再構成できる可能性を示しています。

研究者らは、新しいフレームワークの 3D 再構成の品質はより完璧になる可能性があり、生成の品質を向上させるために常に努力していると述べています。

さらに、研究者らは、新しいビューの合成やエラーの再構成などの 3D データセットの定量的評価は現在提供されていないが、これらは将来の反復作業に含まれる予定であると述べました。

一方、研究者の最終目標は、このフレームワークを拡張して、疎なビューでのオブジェクトの回復など、より実際的な状況に対応できるようにすることです。

著者について

Wang は現在、シンガポール国立大学 (NUS) の ECE 学部のテニュアトラック助教授です。

シンガポール国立大学に入社する前は、スティーブンス工科大学の CS 学部で助教授を務めていました。 Stevens に入社する前は、イリノイ大学アーバナ シャンペーン校のベックマン研究所でトーマス ファン教授の画像形成グループで博士研究員を務めていました。

Wang は、パスカル・フア教授の監督下にあるローザンヌ工科大学 (EPFL) のコンピュータ ビジョン研究室で博士号を取得し、同大学から第一級優等で理学士号を取得しました。 2010 年に香港理工大学コンピュータ サイエンス学部で理学士号を取得。

NUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。

以上がNUS 中国チームは、高速かつ正確なシングルビュー 3D 再構築の最新モデルをリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。 CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。 Mar 26, 2024 pm 12:41 PM

上記および筆者の個人的な理解: 現在、自動運転システム全体において、認識モジュールが重要な役割を果たしている。道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる。下流の規制および制御モジュール自動運転システムでは、タイムリーかつ正確な判断と行動決定が行われます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェア コストが低く導入が容易であるため、業界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

おすすめのAI支援プログラミングツール4選 おすすめのAI支援プログラミングツール4選 Apr 22, 2024 pm 05:34 PM

この AI 支援プログラミング ツールは、急速な AI 開発のこの段階において、多数の有用な AI 支援プログラミング ツールを発掘しました。 AI 支援プログラミング ツールは、開発効率を向上させ、コードの品質を向上させ、バグ率を減らすことができます。これらは、現代のソフトウェア開発プロセスにおける重要なアシスタントです。今日は Dayao が 4 つの AI 支援プログラミング ツールを紹介します (すべて C# 言語をサポートしています)。皆さんのお役に立てれば幸いです。 https://github.com/YSGStudyHards/DotNetGuide1.GitHubCopilotGitHubCopilot は、より少ない労力でより迅速にコードを作成できるようにする AI コーディング アシスタントであり、問​​題解決とコラボレーションにより集中できるようになります。ギット

Go 言語を使用してモバイル アプリケーションを開発する方法を学ぶ Go 言語を使用してモバイル アプリケーションを開発する方法を学ぶ Mar 28, 2024 pm 10:00 PM

Go 言語開発モバイル アプリケーション チュートリアル モバイル アプリケーション市場が活況を続ける中、ますます多くの開発者が Go 言語を使用してモバイル アプリケーションを開発する方法を検討し始めています。シンプルで効率的なプログラミング言語として、Go 言語はモバイル アプリケーション開発でも大きな可能性を示しています。この記事では、Go 言語を使用してモバイル アプリケーションを開発する方法を詳しく紹介し、読者がすぐに始めて独自のモバイル アプリケーションの開発を開始できるように、具体的なコード例を添付します。 1. 準備 始める前に、開発環境とツールを準備する必要があります。頭

どのAIプログラマーが一番優れているでしょうか? Devin、Tongyi Lingma、SWE エージェントの可能性を探る どのAIプログラマーが一番優れているでしょうか? Devin、Tongyi Lingma、SWE エージェントの可能性を探る Apr 07, 2024 am 09:10 AM

世界初の AI プログラマー Devin の誕生から 1 か月も経たない 2022 年 3 月 3 日、プリンストン大学の NLP チームはオープンソース AI プログラマー SWE-agent を開発しました。 GPT-4 モデルを利用して、GitHub リポジトリの問題を自動的に解決します。 SWE ベンチ テスト セットにおける SWE エージェントのパフォーマンスは Devin と同様で、平均 93 秒かかり、問題の 12.29% を解決しました。専用端末と対話することで、SWE エージェントはファイルの内容を開いて検索したり、自動構文チェックを使用したり、特定の行を編集したり、テストを作成して実行したりできます。 (注: 上記の内容は元の内容を若干調整したものですが、原文の重要な情報は保持されており、指定された文字数制限を超えていません。) SWE-A

オックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24) オックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

最も人気のある 5 つの Go 言語ライブラリの概要: 開発に不可欠なツール 最も人気のある 5 つの Go 言語ライブラリの概要: 開発に不可欠なツール Feb 22, 2024 pm 02:33 PM

最も人気のある 5 つの Go 言語ライブラリの概要: 特定のコード例が必要な、開発に不可欠なツール Go 言語は、その誕生以来、広く注目され、応用されてきました。新しい効率的で簡潔なプログラミング言語としての Go の急速な開発は、豊富なオープンソース ライブラリのサポートと切り離すことができません。この記事では、Go 言語ライブラリの中で最も人気のある 5 つを紹介します. これらのライブラリは Go 開発において重要な役割を果たし、開発者に強力な機能と便利な開発エクスペリエンスを提供します。同時に、これらのライブラリの用途と機能をよりよく理解するために、具体的なコード例を示して説明します。

LLMはすべて完了しました! OmniDrive: 3D 認識と推論プランニングの統合 (NVIDIA の最新) LLMはすべて完了しました! OmniDrive: 3D 認識と推論プランニングの統合 (NVIDIA の最新) May 09, 2024 pm 04:55 PM

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現在のマルチモーダル大規模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、将来の状態を予測し、環境と安全に対話する車両の能力に直接影響を与えるため、AV にとって重要です。現在のマルチモーダル大規模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の画像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。

3D ビジョンには点群の登録が不可欠です。すべての主流のソリューションと課題を 1 つの記事で理解する 3D ビジョンには点群の登録が不可欠です。すべての主流のソリューションと課題を 1 つの記事で理解する Apr 02, 2024 am 11:31 AM

点の集合体である点群は、3D再構築、工業用検査、ロボット操作などを通じて、物体の3次元(3D)表面情報の取得と生成に変化をもたらすことが期待されています。最も困難だが重要なプロセスは、点群の登録です。つまり、2 つの異なる座標で取得された 2 つの点群を位置合わせして一致させる空間変換を取得します。このレビューは、点群登録の概要と基本原理を紹介し、さまざまな方法を体系的に分類して比較し、点群登録に存在する技術的問題を解決することで、分野外の学術研究者やエンジニアに指導を提供し、統一されたビジョンに関する議論を促進することを目的としています。点群登録用。一般的な点群取得方法はアクティブ方式とパッシブ方式に分けられ、センサーが能動的に点群を取得するのがアクティブ方式で、点群は後で再構成されます。

See all articles