目次
実験
ホームページ テクノロジー周辺機器 AI 自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

Apr 13, 2023 pm 07:31 PM
自然言語

NeRF (Neural Radiance Fields) は、神経放射場としても知られ、提案されて以来すぐに最も人気のある研究分野の 1 つとなり、その結果は驚くべきものです。ただし、NeRF の直接出力は色付きの密度フィールドのみであり、研究者にほとんど情報を提供しません。コンテキストの欠如は、直面する必要がある問題の 1 つです。その影響は、3D とのインタラクティブ インターフェイスの構築に直接影響します。シーン。

しかし、自然言語は異なり、自然言語は 3D シーンと非常に直観的に対話します。図 1 のキッチンのシーンを使用して、カトラリーがどこにあるかを尋ねたり、かき混ぜるために使用した道具がどこにあるかを尋ねたりすることで、キッチンで物体が見つかることを説明できます。ただし、このタスクを完了するには、モデルのクエリ機能だけでなく、複数のスケールでセマンティクスを組み込む機能も必要です。

この記事では、UC バークレーの研究者が新しい方法を提案し、それを LERF (Language Embedded Radiance Fields) と名付けました。これは、CLIP (Contrastive Language-Image Pre-training) を組み合わせたもので、 NeRF により、この種の 3D オープン言語クエリが可能になります。 LERF は CLIP を直接使用します。COCO などのデータセットによる微調整や、マスクされた領域の提案に依存する必要はありません。 LERF は、複数のスケールで CLIP 埋め込みの整合性を維持し、図 1 に示すように、視覚的属性 (例: 黄色)、抽象概念 (例: 電流)、テキストなどを含むさまざまな言語クエリを処理することもできます。 。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

論文アドレス: https://arxiv.org/pdf/2303.09553v1.pdf

プロジェクト ホームページ: https://www.lerf.io/

LERF は対話的に言語を提供できます。リアルタイム 3D 関連図を抽出するよう求めるプロンプト。たとえば、子羊と水のカップが置かれたテーブルで、子羊または水のカップを入力すると、LERF は関連する 3D 画像を表示します。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

# #複雑な花束の場合、LERF は次のこともできます:

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。# キッチン内のさまざまなオブジェクト:

#手法

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

本研究では、NeRFと共同で言語分野を最適化することにより、新しい手法LERFを構築しました。 LERF は位置と物理スケールを入力として受け取り、単一の CLIP ベクトルを出力します。トレーニング中、フィールドは、トレーニング ビューの画像クロップから生成された CLIP 埋め込みを含むマルチスケール特徴ピラミッドを使用して監視されます。これにより、CLIP エンコーダはさまざまなスケールで画像コンテキストをキャプチャできるため、同じ 3D 位置をさまざまなスケールでの言語埋め込みに関連付けることができます。 LERF は、テスト中に任意のスケールで言語フィールドをクエリして、3D 相関マップを取得できます。

#CLIP 埋め込みは複数のスケールの複数のビューから抽出されるため、LERF の 3D CLIP 埋め込みによって取得されたテキスト クエリの相関マッピングは、 2D CLIP 埋め込みによって取得されたものは、より局所的で 3D の一貫性があり、複数のビューをレンダリングせずに 3D フィールドで直接クエリできます。 自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

#LERF では、サンプル ポイントを中心としたボリューム上の言語埋め込みフィールドを学習する必要があります。具体的には、このフィールドの出力は、指定されたボリュームの画像クロップを含むすべてのトレーニング ビューの平均 CLIP 埋め込みです。 LERF は、クエリを点からボリュームに再構築することにより、入力画像の粗いクロップからの密なフィールドを効果的に監視できます。これは、特定の体積スケールで条件付けすることにより、ピクセルに合わせてレンダリングできます。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

#LERF 自体は一貫した結果を生成しますが、結果として得られる相関マップは、以下の図 5 に示すように不完全で、外れ値を含む場合があります。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

最適化された言語分野を標準化するために、この研究では共有ボトルネックを介した自己教師あり DINO を導入します。

アーキテクチャの観点から見ると、3D での言語埋め込みの最適化は、基礎となるシーン表現の密度分布に影響を与えるべきではないため、この調査では 2 つの独立したネットワークをトレーニングすることで LERF の帰納的バイアスを捉えています。 (誘導バイアス): 1 つは特徴ベクトル (DINO、CLIP) 用、もう 1 つは標準 NeRF 出力 (色、濃度) 用です。

実験

実世界のデータを処理する LERF の能力を実証するために、この研究では食料品店、キッチン、書店、置物などを含む 13 のシーンを収集しました。図 3 は、自然言語を処理する LERF の能力を示す 5 つの代表的なシナリオを選択しています。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

##図 3

図 7 は 3D ですLERF と LSeg の視覚的比較 キャリブレーション ボウル内の卵では、LSeg は LERF より劣っています:

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

図 8 は、限られたセグメンテーション データの下での結果を示しています。セットでトレーニングされた LSeg には、自然言語を効果的に表現する能力がありません。代わりに、図 7 に示すように、トレーニング セット分布内の共通オブジェクトでのみ良好なパフォーマンスを発揮します。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

ただし、LERF 法はまだ完全ではありません。以下に失敗例を示します。たとえば、ズッキーニの野菜をキャリブレーションすると、他の野菜が表示されます。

自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。

以上が自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

自然言語生成タスクと Pytorch コード実装における 5 つのサンプリング方法の紹介 自然言語生成タスクと Pytorch コード実装における 5 つのサンプリング方法の紹介 Feb 20, 2024 am 08:50 AM

自然言語生成タスクにおいて、サンプリング法は生成モデルからテキスト出力を取得する手法です。この記事では、5 つの一般的なメソッドについて説明し、PyTorch を使用してそれらを実装します。 1. 貪欲復号 貪欲復号では、生成モデルは入力シーケンスに基づいて出力シーケンスの単語を時間ごとに予測します。各タイム ステップで、モデルは各単語の条件付き確率分布を計算し、最も高い条件付き確率を持つ単語を現在のタイム ステップの出力として選択します。このワードは次のタイム ステップへの入力となり、指定された長さのシーケンスや特別な終了マーカーなど、何らかの終了条件が満たされるまで生成プロセスが続行されます。 GreedyDecoding の特徴は、毎回現在の条件付き確率が最良になることです。

PHP を使用して基本的な自然言語生成を行う方法 PHP を使用して基本的な自然言語生成を行う方法 Jun 22, 2023 am 11:05 AM

自然言語生成は、データを自然言語テキストに変換する人工知能テクノロジーです。今日のビッグデータ時代では、データを視覚化したり、ユーザーに提示したりする必要がある企業がますます増えており、自然言語生成は非常に効果的な方法です。 PHP は、Web アプリケーションの開発に使用できる非常に人気のあるサーバー側スクリプト言語です。この記事では、PHP を使用して基本的な自然言語を生成する方法を簡単に紹介します。自然言語生成ライブラリの紹介 PHPに付属している関数ライブラリには自然言語生成に必要な関数が含まれていないため、

トラフィック エンジニアリングによりコード生成の精度が 19% から 44% に倍増 トラフィック エンジニアリングによりコード生成の精度が 19% から 44% に倍増 Feb 05, 2024 am 09:15 AM

新しい論文の著者は、コード生成を「強化する」方法を提案しています。コード生成は、人工知能におけるますます重要な機能です。機械学習モデルをトレーニングすることにより、自然言語記述に基づいてコンピューター コードを自動的に生成します。このテクノロジーには幅広い応用の可能性があり、ソフトウェア仕様を使用可能なコードに変換し、バックエンド開発を自動化し、人間のプログラマーを支援して作業効率を向上させることができます。ただし、AI システムにとって高品質のコードを生成することは、翻訳や要約などの言語タスクに比べて依然として困難です。コードはターゲット プログラミング言語の構文に正確に準拠し、エッジ ケースや予期しない入力を適切に処理し、問題の説明の多くの細かい詳細を正確に処理する必要があります。他の領域では無害に見える小さなバグでも、プログラムの機能を完全に混乱させ、問題を引き起こす可能性があります。

マルコフ連鎖を使用したテキストジェネレーターの構築 マルコフ連鎖を使用したテキストジェネレーターの構築 Apr 09, 2023 pm 10:11 PM

この記事では、人気のある機械学習プロジェクトであるテキスト ジェネレーターを紹介します。テキスト ジェネレーターの構築方法と、より高速な予測モデルを実現するマルコフ連鎖の実装方法を学びます。テキスト ジェネレーターの概要 テキスト生成は、あらゆる業界、特にモバイル、アプリ、データ サイエンスの分野で人気があります。報道機関でも、執筆プロセスを支援するためにテキスト生成を使用しています。日常生活では、テキスト生成テクノロジーに触れることがあります。テキスト補完、検索候補、スマート作成、チャット ロボットなどはすべてアプリケーションの例です。この記事では、マルコフ連鎖を使用してテキスト ジェネレーターを構築します。これは、チェーンの前の文字を取得し、シーケンス内の次の文字を生成する文字ベースのモデルになります。サンプル単語でプログラムをトレーニングすることにより、

GPT-4 と統合されたカーソルにより、チャットと同じくらい簡単にコードを作成できるようになり、自然言語によるコーディングの新時代が到来しました。 GPT-4 と統合されたカーソルにより、チャットと同じくらい簡単にコードを作成できるようになり、自然言語によるコーディングの新時代が到来しました。 Apr 04, 2023 pm 12:15 PM

GPT-4 を統合する Github Copilot X はまだ小規模な内部テスト中ですが、GPT-4 を統合する Cursor は公開されています。 Cursor は GPT-4 を統合した IDE で、自然言語でコードを記述できるため、チャットするのと同じくらい簡単にコードを作成できます。 GPT-4 と GPT-3.5 の間には、コードを処理して作成する能力において、依然として大きな違いがあります。公式サイトからのテストレポートです。最初の 2 つはテキスト入力を使用する GPT-4、もう 1 つは画像入力を使用する GPT-4、3 つ目は GPT3.5 であり、GPT-4 のコーディング能力は GPT-3.5 と比較して大幅に向上していることがわかります。 GPT-4 を統合した Github Copilot X はまだ小規模なテスト段階にあり、

「分詞」は必要ですか?アンドレイ・カルパシー: この歴史的な荷物を捨てる時が来た 「分詞」は必要ですか?アンドレイ・カルパシー: この歴史的な荷物を捨てる時が来た May 20, 2023 pm 12:52 PM

ChatGPT などの会話型 AI の登場により、人々はこの種のことに慣れてきました。テキスト、コード、または画像を入力すると、会話型ロボットがあなたの望む答えを返してくれます。しかし、この単純な対話方法の背後では、AI モデルは非常に複雑なデータ処理と計算を実行する必要があり、トークン化が一般的です。自然言語処理の分野では、トークン化とは、テキスト入力を「トークン」と呼ばれる小さな単位に分割することを指します。これらのトークンは、特定の単語分割戦略とタスク要件に応じて、単語、サブワード、または文字になります。たとえば、「私はリンゴを食べるのが好きです」という文に対してトークン化を実行すると、一連のトークンが得られます: [&qu

価値観とプライバシー保護を完全に網羅し、中国サイバースペース局は生成型AIの「ルールを確立」する予定 価値観とプライバシー保護を完全に網羅し、中国サイバースペース局は生成型AIの「ルールを確立」する予定 Apr 13, 2023 pm 03:34 PM

中国サイバー空間局(以下、中国サイバー空間局)は4月11日、「生成型人工知能サービスの管理措置(意見募集草案)」を起草・公表し、1カ月にわたる意見募集を開始した。公共。この管理措置(意見募集案)は全21条からなり、適用範囲としては、生成型人工知能サービスを提供する事業者だけでなく、そのサービスを利用する組織や個人も含み、管理措置はその成果物を対象とする。生成型人工知能の内容、価値観、サービスプロバイダーのトレーニング原則、プライバシー/知的財産権およびその他の権利の保護など。 GPT などの大規模な自然言語生成モデルや製品の出現により、一般の人々は人工知能の急速な進歩を体験できるようになっただけでなく、偏った差別的な情報の生成などのセキュリティ リスクも露呈しました。

5 つの成功事例で自然言語処理のビジネス価値を探る 5 つの成功事例で自然言語処理のビジネス価値を探る Apr 13, 2023 am 11:34 AM

データは現在、最も価値のある企業商品の 1 つです。 CIO.com の「State of the CIO 2022」レポートによると、IT リーダーの 35% が、今年の組織の IT 投資の最大の割合をデータとビジネス分析が占めると回答し、回答者の 58% は来年も同様であると回答しています。彼らはデータ分析への投資を増やすでしょう。データにはさまざまな形式がありますが、おそらく最大の未開発のデータ プールはテキストです。特許、製品仕様、学術出版物、市場調査、ニュース、ソーシャル フィードなど、すべてテキストベースであり、テキストの量も増加しています。 。 Foundry の 2022 年のデータと分析に関する調査によると、IT リーダーの 36% は、この非構造化データの管理が直面する最大の課題であると考えています。

See all articles