アブラカダブラ!
2D で生成された 3D モデルに関して、Nvidia は自称「世界クラス」の研究である GET3D を発表しました。
#2D 画像でトレーニングした後、モデルは高忠実度のテクスチャと複雑な幾何学的詳細を備えた 3D 形状を生成します。
#それはどれくらい強力ですか? 形状、テクスチャ、マテリアルのカスタマイズ
GET3D は、明示的にテクスチャ化された 3D メッシュを生成する機能に由来してその名前が付けられました (明示的にテクスチャ化された 3D メッシュを生成) )。
#論文アドレス: https://arxiv.org/pdf/2209.11163.pdf#つまり、作成される形状は、紙モデルのような三角形のメッシュの形で、テクスチャード マテリアルで覆われています。
#重要なのは、このモデルがさまざまな高品質のモデルを生成できることです。
たとえば、椅子の脚のさまざまな車輪、車の車輪、ライトや窓、動物の耳や角、オートバイのバックミラー、車のタイヤのテクスチャ、ハイヒールなどです。 、人間の服...
#通りの両側にユニークな建物があり、さまざまな車両がビュンビュンと通り過ぎ、さまざまな人々のグループが通り過ぎますが...
#同じ 3D 仮想世界を手動モデリングで作成するには、非常に時間がかかります。
以前の 3D 生成 AI モデルは手動モデリングよりも高速ですが、より詳細なモデルを生成する機能はまだ不足しています。
最新の逆レンダリング手法でも、さまざまな角度から撮影した 2D 画像に基づいて 3D オブジェクトを生成することしかできません。一度に 1 つの 3D オブジェクトを構築します。
#GET3D は異なります。
開発者は、生成されたモデルをゲーム エンジン、3D モデラー、ムービー レンダラーに簡単にインポートして編集できます。
#クリエイターが GET3D で生成されたモデルをグラフィック アプリケーションにエクスポートすると、モデルがシーン内で移動または回転するときにリアルな照明効果を適用できます。
#写真が示すように:
さらに、GET3D はテキストガイドによる形状生成も実現できます。
# NVIDIA の別の AI ツールである StyleGAN-NADA を使用すると、開発者はテキスト プロンプトを使用して画像に特定のスタイルを追加できます。
たとえば、レンダリングされた車を燃え尽きた車やタクシーに変えることができます
普通の家を次のように変換します。レンガ造りの家、燃えている家、あるいはお化け屋敷さえも。
または、タイガー プリントとパンダ プリントの特徴を任意の動物に適用します...
シンプソンズの「どうぶつの森」のようなものです...
NVIDIA単一の NVIDIA GPU でトレーニングすると、GET3D は 1 秒あたり約 20 個のオブジェクトを生成できると紹介しました。
ここで、学習するトレーニング データ セットが大きくて多様であればあるほど、出力はより多様で詳細になります。
NVIDIA によると、研究チームは A100 GPU を使用して、わずか 2 日間で約 100 万枚の画像でモデルをトレーニングしました。
研究方法とプロセスGET3D フレームワーク。その主な機能は、テクスチャ付きの 3 次元形状を合成することです。
生成プロセスは 2 つの部分に分かれています。最初の部分はジオメトリ ブランチで、任意のトポロジのサーフェス メッシュを出力できます。もう 1 つの部分はテクスチャ ブランチで、サーフェス ポイントをクエリできるテクスチャ フィールドを生成します。
トレーニング中に、効率的にレンダリングするために微分可能ラスタライザーが使用されます結果として得られるテクスチャ メッシュを 2 次元の高解像度画像に変換します。プロセス全体は分離可能であり、2D 弁別器の勾配を伝播することで画像から敵対的なトレーニングを行うことができます。
# その後、勾配は 2D ディスクリミネータから 2 つのジェネレータ ブランチに伝播されます。
#研究者たちは、モデルを評価するために広範な実験を実施しました。彼らはまず、GET3D によって生成された 3D テクスチャ メッシュの品質を、ShapeNet および Turbosquid データセットを使用して生成された既存のメッシュと比較しました。
次に、研究者らは比較結果に基づいて後続の研究でモデルを最適化し、さらに実験を実施しました。
#GET3D モデルは、ジオメトリとテクスチャの相分離を実現できます。
#図は、テクスチャ コードを変更しながら、各行の同じジオメトリ非表示コードによって生成された形状を示しています。
# 各列には、ジオメトリ コードを変更しながら同じテクスチャ非表示コードによって生成された形状が示されています。
さらに、研究者らは、各行の同じテクスチャ非表示コードによって生成された形状に、左から右にジオメトリ非表示コードを挿入しました。
# と、テクスチャ コードを上から下に挿入しながら、同じジオメトリの隠しコードによって生成された形状。結果は、各補間が生成されたモデルにとって意味があることを示しています。
各モデルのサブグラフ内で、GET3D は、すべてのカテゴリの異なる形状間のスムーズな遷移を生成できます。 #各行で、小さなノイズを追加して、隠されたコードを局所的に混乱させます。このようにして、GET3D は、似ているがわずかに異なる形状をローカルに生成できます。 研究者らは、GET3D の将来のバージョンではカメラ姿勢推定技術を使用して、開発者が現実世界に合わせてモデルをトレーニングできるようになる可能性があると指摘しています。 . 合成データセットではなくデータ。 将来的には、改良により、開発者は一度に 1 つのオブジェクト カテゴリに対して GET3D をトレーニングするのではなく、さまざまな 3D 形状に対して一度に GET3D をトレーニングできるようになります。 。 Nvidia 人工知能研究担当バイスプレジデントである Sanja Fidler 氏は、 この論文の最初の著者である Jun Gao は、トロント大学の機械学習グループの博士課程の学生であり、その指導教員でもあります。サンジャ・フィドラーです。 #優れた学歴に加えて、彼は NVIDIA トロント人工知能研究所の研究員でもあります。 彼の研究は主に深層学習 (DL) に焦点を当てており、構造化幾何表現学習を目標としています。同時に、彼の研究では、2D および 3D の画像やビデオに対する人間の認識から洞察も得られます。 # このような優秀なトップの学生は北京大学の出身です。彼は 2018 年に学士号を取得して卒業しました。北京大学在学中、王立偉教授と共同研究を行った。 #卒業後は、スタンフォード大学、MSRA、NVIDIA でもインターンをしました。 Jun Gao の指導者は、業界のリーダーでもあります。 Fidler は、トロント大学の准教授であり、Vector Institute の教員であり、共同設立メンバーでもあります。 #彼女は教えることに加えて、NVIDIA の人工知能研究担当副社長でもあり、トロントの研究所を率いています。 # トロントに来る前、彼女はシカゴの豊田工業大学で助教授を務めていました。この研究所はシカゴ大学のキャンパス内にあり、学術機関とみなされます。 Fidler の研究分野は、コンピューター ビジョン (CV) と機械学習 (ML) に焦点を当てており、CV とグラフィックスの交差点、3 次元ビジョン、および3D 再構成と合成、画像アノテーションなどのインタラクティブな手法。
以上が1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。