ホームページ テクノロジー周辺機器 AI 1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

Apr 12, 2023 pm 11:16 PM
gpu モデル エヌビディア

アブラカダブラ!

2D で生成された 3D モデルに関して、Nvidia は自称「世界クラス」の研究である GET3D を発表しました。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

#2D 画像でトレーニングした後、モデルは高忠実度のテクスチャと複雑な幾何学的詳細を備えた 3D 形状を生成します。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

#それはどれくらい強力ですか? 形状、テクスチャ、マテリアルのカスタマイズ

GET3D は、明示的にテクスチャ化された 3D メッシュを生成する機能に由来してその名前が付けられました (明示的にテクスチャ化された 3D メッシュを生成) )。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

#論文アドレス: https://arxiv.org/pdf/2209.11163.pdf

#つまり、作成される形状は、紙モデルのような三角形のメッシュの形で、テクスチャード マテリアルで覆われています。

#重要なのは、このモデルがさまざまな高品質のモデルを生成できることです。

たとえば、椅子の脚のさまざまな車輪、車の車輪、ライトや窓、動物の耳や角、オートバイのバックミラー、車のタイヤのテクスチャ、ハイヒールなどです。 、人間の服...

#通りの両側にユニークな建物があり、さまざまな車両がビュンビュンと通り過ぎ、さまざまな人々のグループが通り過ぎますが...

#同じ 3D 仮想世界を手動モデリングで作成するには、非常に時間がかかります。

以前の 3D 生成 AI モデルは手動モデリングよりも高速ですが、より詳細なモデルを生成する機能はまだ不足しています。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します 最新の逆レンダリング手法でも、さまざまな角度から撮影した 2D 画像に基づいて 3D オブジェクトを生成することしかできません。一度に 1 つの 3D オブジェクトを構築します。

#GET3D は異なります。

開発者は、生成されたモデルをゲーム エンジン、3D モデラー、ムービー レンダラーに簡単にインポートして編集できます。

#クリエイターが GET3D で生成されたモデルをグラフィック アプリケーションにエクスポートすると、モデルがシーン内で移動または回転するときにリアルな照明効果を適用できます。

#写真が示すように:

さらに、GET3D はテキストガイドによる形状生成も実現できます。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

# NVIDIA の別の AI ツールである StyleGAN-NADA を使用すると、開発者はテキスト プロンプトを使用して画像に特定のスタイルを追加できます。

たとえば、レンダリングされた車を燃え尽きた車やタクシーに変えることができます

普通の家を次のように変換します。レンガ造りの家、燃えている家、あるいはお化け屋敷さえも。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

または、タイガー プリントとパンダ プリントの特徴を任意の動物に適用します...

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

シンプソンズの「どうぶつの森」のようなものです...

NVIDIA単一の NVIDIA GPU でトレーニングすると、GET3D は 1 秒あたり約 20 個のオブジェクトを生成できると紹介しました。

ここで、学習するトレーニング データ セットが大きくて多様であればあるほど、出力はより多様で詳細になります。

NVIDIA によると、研究チームは A100 GPU を使用して、わずか 2 日間で約 100 万枚の画像でモデルをトレーニングしました。

研究方法とプロセス

GET3D フレームワーク。その主な機能は、テクスチャ付きの 3 次元形状を合成することです。

生成プロセスは 2 つの部分に分かれています。最初の部分はジオメトリ ブランチで、任意のトポロジのサーフェス メッシュを出力できます。もう 1 つの部分はテクスチャ ブランチで、サーフェス ポイントをクエリできるテクスチャ フィールドを生成します。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

トレーニング中に、効率的にレンダリングするために微分可能ラスタライザーが使用されます結果として得られるテクスチャ メッシュを 2 次元の高解像度画像に変換します。プロセス全体は分離可能であり、2D 弁別器の勾配を伝播することで画像から敵対的なトレーニングを行うことができます。

# その後、勾配は 2D ディスクリミネータから 2 つのジェネレータ ブランチに伝播されます。

#研究者たちは、モデルを評価するために広範な実験を実施しました。彼らはまず、GET3D によって生成された 3D テクスチャ メッシュの品質を、ShapeNet および Turbosquid データセットを使用して生成された既存のメッシュと比較しました。

次に、研究者らは比較結果に基づいて後続の研究でモデルを最適化し、さらに実験を実施しました。

#GET3D モデルは、ジオメトリとテクスチャの相分離を実現できます。

#図は、テクスチャ コードを変更しながら、各行の同じジオメトリ非表示コードによって生成された形状を示しています。

# 各列には、ジオメトリ コードを変更しながら同じテクスチャ非表示コードによって生成された形状が示されています。

さらに、研究者らは、各行の同じテクスチャ非表示コードによって生成された形状に、左から右にジオメトリ非表示コードを挿入しました。

# と、テクスチャ コードを上から下に挿入しながら、同じジオメトリの隠しコードによって生成された形状。結果は、各補間が生成されたモデルにとって意味があることを示しています。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

各モデルのサブグラフ内で、GET3D は、すべてのカテゴリの異なる形状間のスムーズな遷移を生成できます。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

#各行で、小さなノイズを追加して、隠されたコードを局所的に混乱させます。このようにして、GET3D は、似ているがわずかに異なる形状をローカルに生成できます。

1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成します

研究者らは、GET3D の将来のバージョンではカメラ姿勢推定技術を使用して、開発者が現実世界に合わせてモデルをトレーニングできるようになる可能性があると指摘しています。 . 合成データセットではなくデータ。

将来的には、改良により、開発者は一度に 1 つのオブジェクト カテゴリに対して GET3D をトレーニングするのではなく、さまざまな 3D 形状に対して一度に GET3D をトレーニングできるようになります。 。

Nvidia 人工知能研究担当バイスプレジデントである Sanja Fidler 氏は、

GET3D は私たちを人工知能から解放します、と述べました。インテリジェンス駆動の 3D コンテンツ 創作の普及がまた一歩近づいています。テクスチャ付きの 3D 形状をその場で生成できる機能は、開発者にとって状況を一変させる可能性があり、さまざまな興味深いオブジェクトを仮想世界に迅速に追加するのに役立ちます。

著者の紹介

この論文の最初の著者である Jun Gao は、トロント大学の機械学習グループの博士課程の学生であり、その指導教員でもあります。サンジャ・フィドラーです。

#優れた学歴に加えて、彼は NVIDIA トロント人工知能研究所の研究員でもあります。

彼の研究は主に深層学習 (DL) に焦点を当てており、構造化幾何表現学習を目標としています。同時に、彼の研究では、2D および 3D の画像やビデオに対する人間の認識から洞察も得られます。

# このような優秀なトップの学生は北京大学の出身です。彼は 2018 年に学士号を取得して卒業しました。北京大学在学中、王立偉教授と共同研究を行った。

#卒業後は、スタンフォード大学、MSRA、NVIDIA でもインターンをしました。

Jun Gao の指導者は、業界のリーダーでもあります。

Fidler は、トロント大学の准教授であり、Vector Institute の教員であり、共同設立メンバーでもあります。

#彼女は教えることに加えて、NVIDIA の人工知能研究担当副社長でもあり、トロントの研究所を率いています。

# トロントに来る前、彼女はシカゴの豊田工業大学で助教授を務めていました。この研究所はシカゴ大学のキャンパス内にあり、学術機関とみなされます。

Fidler の研究分野は、コンピューター ビジョン (CV) と機械学習 (ML) に焦点を当てており、CV とグラフィックスの交差点、3 次元ビジョン、および3D 再構成と合成、画像アノテーションなどのインタラクティブな手法。

以上が1 つの GPU、1 秒あたり 20 モデル! NVIDIA の新しいおもちゃは GET3D を使用して宇宙を作成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Beelink EX グラフィックス カード拡張ドックは、GPU パフォーマンスの損失ゼロを約束します Beelink EX グラフィックス カード拡張ドックは、GPU パフォーマンスの損失ゼロを約束します Aug 11, 2024 pm 09:55 PM

最近発売された Beelink GTi 14 の際立った機能の 1 つは、ミニ PC の下に隠し PCIe x8 スロットがあることです。同社は発売時に、これにより外部グラフィックスカードをシステムに接続しやすくなると述べた。ビーリンクにはnがあります

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進化し、コンテキストの長さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AMD FSR 3.1 のリリース: フレーム生成機能は Nvidia GeForce RTX および Intel Arc GPU でも動作します AMD FSR 3.1 のリリース: フレーム生成機能は Nvidia GeForce RTX および Intel Arc GPU でも動作します Jun 29, 2024 am 06:57 AM

AMD は、今年の第 2 四半期に FSR 3.1 をリリースするという 24 年 3 月の当初の約束を果たしました。 3.1 リリースを本当に際立たせているのは、フレーム生成側がアップスケーリング側から切り離されていることです。これにより、Nvidia および Intel GPU の所有者は FSR 3 を適用できるようになります。

「AI Factory」はソフトウェア スタック全体の再構築を促進し、NVIDIA はユーザーが展開できる Llama3 NIM コンテナを提供します 「AI Factory」はソフトウェア スタック全体の再構築を促進し、NVIDIA はユーザーが展開できる Llama3 NIM コンテナを提供します Jun 08, 2024 pm 07:25 PM

6月2日の当サイトのニュースによると、現在開催中のHuang Renxun 2024 Taipei Computexの基調講演で、Huang Renxun氏は、生成人工知能がソフトウェアスタック全体の再構築を促進すると紹介し、NIM(Nvidia Inference Microservices)のクラウドネイティブマイクロサービスをデモしました。 。 Nvidia は、「AI ファクトリー」が新たな産業革命を引き起こすと信じています。Microsoft が開拓したソフトウェア業界を例に挙げると、Huang Renxun 氏は、生成人工知能がそのフルスタックの再構築を促進すると信じています。あらゆる規模の企業による AI サービスの導入を促進するために、NVIDIA は今年 3 月に NIM (Nvidia Inference Microservices) クラウドネイティブ マイクロサービスを開始しました。 NIM+ は、市場投入までの時間を短縮するために最適化されたクラウドネイティブのマイクロサービスのスイートです

総合的にDPOを超える:Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた 総合的にDPOを超える:Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた Jun 01, 2024 pm 04:41 PM

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマン フィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシー モデルを最適化することが含まれます。最近、一部の研究者はより単純なオフライン アルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシー モデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース OpenAI データは必要ありません。大規模なコード モデルのリストに加わりましょう。 UIUC が StarCoder-15B-Instruct をリリース Jun 13, 2024 pm 01:59 PM

ソフトウェア テクノロジの最前線に立つ UIUC Zhang Lingming のグループは、BigCode 組織の研究者とともに、最近 StarCoder2-15B-Instruct 大規模コード モデルを発表しました。この革新的な成果により、コード生成タスクにおいて大きな進歩が達成され、CodeLlama-70B-Instruct を上回り、コード生成パフォーマンス リストのトップに到達しました。 StarCoder2-15B-Instruct のユニークな特徴は、その純粋な自己調整戦略であり、トレーニング プロセス全体がオープンで透過的で、完全に自律的で制御可能です。このモデルは、高価な手動アノテーションに頼ることなく、StarCoder-15B 基本モデルの微調整に応じて、StarCoder2-15B を介して数千の命令を生成します。

LLMはすべて完了しました! OmniDrive: 3D 認識と推論プランニングの統合 (NVIDIA の最新) LLMはすべて完了しました! OmniDrive: 3D 認識と推論プランニングの統合 (NVIDIA の最新) May 09, 2024 pm 04:55 PM

上記と著者の個人的な理解: この論文は、自動運転アプリケーションにおける現在のマルチモーダル大規模言語モデル (MLLM) の主要な課題、つまり MLLM を 2D 理解から 3D 空間に拡張する問題の解決に特化しています。自動運転車 (AV) は 3D 環境について正確な決定を下す必要があるため、この拡張は特に重要です。 3D 空間の理解は、情報に基づいて意思決定を行い、将来の状態を予測し、環境と安全に対話する車両の能力に直接影響を与えるため、AV にとって重要です。現在のマルチモーダル大規模言語モデル (LLaVA-1.5 など) は、ビジュアル エンコーダーの解像度制限や LLM シーケンス長の制限により、低解像度の画像入力しか処理できないことがよくあります。ただし、自動運転アプリケーションには次の要件が必要です。

See all articles