ホームページ テクノロジー周辺機器 AI Appleが「AIアーキテクト」GAUDIを開発:テキストに基づいて超リアルな3Dシーンを生成!

Appleが「AIアーキテクト」GAUDIを開発:テキストに基づいて超リアルな3Dシーンを生成!

May 02, 2023 pm 03:46 PM
ai 建築家

現在、新しいテキスト生成画像モデルが時々リリースされており、それぞれが非常に強力な効果を持っており、常に人々を驚かせています。この分野はすでに天空に達しています。しかし、OpenAI の DALL-E 2 や Google の Imagen などの AI システムは 2 次元の画像しか生成できませんが、テキストも 3 次元のシーンに変換できれば、視覚体験は 2 倍になります。さて、Apple の AI チームは、3D シーン生成のための最新のニューラル アーキテクチャである GAUDI を発表しました。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

複雑でリアルな 3D シーンの配信、移動カメラからの没入型レンダリング、およびテキスト プロンプトに基づくレンダリングをキャプチャできます。シーン!このモデルはスペインの有名な建築家アントニ・ガウディにちなんで名付けられました。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

論文アドレス: https://arxiv.org/pdf/2207.13751.pdf

#1

NeRF に基づく 3D レンダリング

ニューラル レンダリングは、コンピューター グラフィックスと人工知能を組み合わせ、2D 画像から 3D モデルを生成する多くの方法を生み出してきました。たとえば、Nvidia が最近開発した 3D MoMa では、1 時間で 100 枚未満の写真から 3D モデルを作成できます。 Google はまた、Neural Radiation Fields (NeRF) を利用して、2D 衛星画像とストリート ビュー画像を Google マップの 3D シーンに結合し、没入型ビューを実現しています。 Google の HumanNeRF は、ビデオから 3D 人体をレンダリングすることもできます。

現在、NeRF は主に、さまざまなカメラの視点からレンダリングできる 3D モデルおよび 3D シーンの神経記憶媒体として使用されています。 NeRF は、仮想現実体験にもすでに使用され始めています。

では、さまざまなカメラ角度からの画像をリアルにレンダリングする強力な機能を備えた NeRF は、生成 AI で使用できるのでしょうか?もちろん、3D シーンの生成を試みた研究チームもあります。たとえば、Google は昨年、NeRF の 3D ビュー生成機能と OpenAI の CLIP の評価機能を組み合わせた AI システム Dream Fields を発表しました。画像コンテンツを作成し、最終的に NeRF に一致するテキストの説明を生成する機能を実現します。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

##キャプション: Google Dream Fields

ただし、Google の Dream Fields でできるのは単一オブジェクトの 3D ビューを生成しますが、それを完全に制約のない 3D シーンに拡張するには多くの困難があります。最大の難点は、カメラの位置に大きな制限があることです。単一のオブジェクトの場合、考えられるすべての適切なカメラ位置をドームにマッピングできますが、3D シーンでは、カメラの位置はオブジェクトの影響を受けます。および壁など。障害物の制限。シーン生成時にこれらの要素を考慮しないと、3D シーンを生成することが困難になります。

2

3D レンダリングの専門家 GAUDI

カメラの位置が制限されるという上記の問題に対して、Apple の GAUDI モデルは 3 つの特殊なネットワークを考案しました。簡単に説明すると、GAUDI には

カメラ ポーズ デコーダがあり、

カメラ ポーズを 3D ジオメトリやシーンの外観から分離し、カメラの可能な位置を予測し、出力が有効であることを確認できます。 3D シーン アーキテクチャの位置。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!#注: デコーダー モデル アーキテクチャ

シナリオ用のシーン デコーダー次のことができます。 3D キャンバスである 3 次元平面の表現を予測します。 次に、放射線場デコーダ

は、このキャンバス上のボリューム レンダリング方程式を使用して、後続の画像を描画します。

GAUDI の 3D 生成は 2 つの段階で構成されます:

1 つは、潜在パラメーターとネットワーク パラメーターの最適化です。つまり、3D 放射線フィールドと、数千の軌道の対応するカメラ ポーズをエンコードする潜在表現を学習します。単一のオブジェクトとは異なり、有効なカメラ ポーズはシーンによって異なるため、シーンごとに有効なカメラ ポーズをエンコードする必要があります。

2 つ目は、拡散モデルを使用して潜在表現に関する生成モデルを学習し、条件付き推論タスクと無条件推論タスクの両方で適切にモデル化できるようにすることです。前者はテキストまたは画像のプロンプトに基づいて 3D シーンを生成し、後者はカメラの軌跡に基づいて 3D シーンを生成します。

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

3D 屋内シーンでは、GAUDI は新しいカメラの動きを生成できます。以下のいくつかの例のように、テキストの説明にはシーンとナビゲーション パスに関する情報が含まれています。ここで研究チームは、事前にトレーニングされた RoBERTa ベースのテキスト エンコーダーを採用し、その中間表現を使用して拡散モデルを調整しました。生成される効果は次のとおりです: テキスト プロンプト: Enter the Kitchen

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

テキスト プロンプト: 2 階に進みます

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

テキスト プロンプト: 廊下を通ってください

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

さらに、事前トレーニング済み ResNet-18 を画像エンコーダーとして使用することで、GAUDI はランダムな視点から観察された特定の画像の放射線場をサンプリングできます。 、それによって画像からキューを抽出し、3D シーンを作成します。画像プロンプト:

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

3D シーンの生成:

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

画像ヒント:

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

3D シーンの生成:

苹果开发「AI 建筑师」GAUDI:根据文本生成超逼真 3D 场景!

研究者の実験屋内スキャン データセット ARKitScences を含む 4 つの異なるデータセットでの実験は、GAUDI が学習されたビューを再構築し、既存の手法の品質と同等の品質を実現できることを示しています。数千の屋内シーンに数十万の画像を含む 3D シーンを作成するという大規模なタスクでも、GAUDI はモードの崩壊や向きの問題に悩まされることはありませんでした。

GAUDI の登場は、多くのコンピューター ビジョン タスクに影響を与えるだけでなく、その 3D シーン生成機能は、モデルベースの強化学習と計画、SLAM、および 3D にも有益です。コンテンツ、生産およびその他の研究分野。

現時点では、GAUDI によって生成されたビデオの品質は高くなく、多くのアーティファクトが見られます。ただし、このシステムは、Apple が 3D オブジェクトやシーンをレンダリングするための現在進行中の AI システムの良いスタートと基盤となる可能性があり、GAUDI はデジタル位置を生成するために Apple の XR ヘッドセットにも適用されると言われています。楽しみにしていてください~

以上がAppleが「AIアーキテクト」GAUDIを開発:テキストに基づいて超リアルな3Dシーンを生成!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

mysqlはjsonを返すことができますか mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

MySQLの主な鍵はヌルにすることができます MySQLの主な鍵はヌルにすることができます Apr 08, 2025 pm 03:03 PM

MySQLプライマリキーは、データベース内の各行を一意に識別するキー属性であるため、空にすることはできません。主キーが空になる可能性がある場合、レコードを一意に識別することはできません。これにより、データの混乱が発生します。一次キーとして自己挿入整数列またはUUIDを使用する場合、効率やスペース占有などの要因を考慮し、適切なソリューションを選択する必要があります。

酸性特性を理解する:信頼できるデータベースの柱 酸性特性を理解する:信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性:トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のア​​カウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

マスターSQL制限条項:クエリの行数を制御する マスターSQL制限条項:クエリの行数を制御する Apr 08, 2025 pm 07:00 PM

sqllimit句:クエリ結果の行数を制御します。 SQLの制限条項は、クエリによって返される行数を制限するために使用されます。これは、大規模なデータセット、パジネートされたディスプレイ、テストデータを処理する場合に非常に便利であり、クエリ効率を効果的に改善することができます。構文の基本的な構文:SelectColumn1、column2、... FromTable_nameLimitnumber_of_rows; number_of_rows:返された行の数を指定します。オフセットの構文:SelectColumn1、column2、... FromTable_nameLimitoffset、number_of_rows; offset:skip

See all articles