自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。
NeRF (Neural Radiance Fields) は、神経放射場としても知られ、提案されて以来すぐに最も人気のある研究分野の 1 つとなり、その結果は驚くべきものです。ただし、NeRF の直接出力は色付きの密度フィールドのみであり、研究者にほとんど情報を提供しません。コンテキストの欠如は、直面する必要がある問題の 1 つです。その影響は、3D とのインタラクティブ インターフェイスの構築に直接影響します。シーン。
しかし、自然言語は異なり、自然言語は 3D シーンと非常に直観的に対話します。図 1 のキッチンのシーンを使用して、カトラリーがどこにあるかを尋ねたり、かき混ぜるために使用した道具がどこにあるかを尋ねたりすることで、キッチンで物体が見つかることを説明できます。ただし、このタスクを完了するには、モデルのクエリ機能だけでなく、複数のスケールでセマンティクスを組み込む機能も必要です。
この記事では、UC バークレーの研究者が新しい方法を提案し、それを LERF (Language Embedded Radiance Fields) と名付けました。これは、CLIP (Contrastive Language-Image Pre-training) を組み合わせたもので、 NeRF により、この種の 3D オープン言語クエリが可能になります。 LERF は CLIP を直接使用します。COCO などのデータセットによる微調整や、マスクされた領域の提案に依存する必要はありません。 LERF は、複数のスケールで CLIP 埋め込みの整合性を維持し、図 1 に示すように、視覚的属性 (例: 黄色)、抽象概念 (例: 電流)、テキストなどを含むさまざまな言語クエリを処理することもできます。 。
論文アドレス: https://arxiv.org/pdf/2303.09553v1.pdf
プロジェクト ホームページ: https://www.lerf.io/
LERF は対話的に言語を提供できます。リアルタイム 3D 関連図を抽出するよう求めるプロンプト。たとえば、子羊と水のカップが置かれたテーブルで、子羊または水のカップを入力すると、LERF は関連する 3D 画像を表示します。
# キッチン内のさまざまなオブジェクト:
#手法
#CLIP 埋め込みは複数のスケールの複数のビューから抽出されるため、LERF の 3D CLIP 埋め込みによって取得されたテキスト クエリの相関マッピングは、 2D CLIP 埋め込みによって取得されたものは、より局所的で 3D の一貫性があり、複数のビューをレンダリングせずに 3D フィールドで直接クエリできます。
#LERF では、サンプル ポイントを中心としたボリューム上の言語埋め込みフィールドを学習する必要があります。具体的には、このフィールドの出力は、指定されたボリュームの画像クロップを含むすべてのトレーニング ビューの平均 CLIP 埋め込みです。 LERF は、クエリを点からボリュームに再構築することにより、入力画像の粗いクロップからの密なフィールドを効果的に監視できます。これは、特定の体積スケールで条件付けすることにより、ピクセルに合わせてレンダリングできます。
#LERF 自体は一貫した結果を生成しますが、結果として得られる相関マップは、以下の図 5 に示すように不完全で、外れ値を含む場合があります。
最適化された言語分野を標準化するために、この研究では共有ボトルネックを介した自己教師あり DINO を導入します。
アーキテクチャの観点から見ると、3D での言語埋め込みの最適化は、基礎となるシーン表現の密度分布に影響を与えるべきではないため、この調査では 2 つの独立したネットワークをトレーニングすることで LERF の帰納的バイアスを捉えています。 (誘導バイアス): 1 つは特徴ベクトル (DINO、CLIP) 用、もう 1 つは標準 NeRF 出力 (色、濃度) 用です。
実験
実世界のデータを処理する LERF の能力を実証するために、この研究では食料品店、キッチン、書店、置物などを含む 13 のシーンを収集しました。図 3 は、自然言語を処理する LERF の能力を示す 5 つの代表的なシナリオを選択しています。
##図 3
図 7 は 3D ですLERF と LSeg の視覚的比較 キャリブレーション ボウル内の卵では、LSeg は LERF より劣っています:
図 8 は、限られたセグメンテーション データの下での結果を示しています。セットでトレーニングされた LSeg には、自然言語を効果的に表現する能力がありません。代わりに、図 7 に示すように、トレーニング セット分布内の共通オブジェクトでのみ良好なパフォーマンスを発揮します。
ただし、LERF 法はまだ完全ではありません。以下に失敗例を示します。たとえば、ズッキーニの野菜をキャリブレーションすると、他の野菜が表示されます。
以上が自然言語が NeRF に統合され、わずか数語で 3D 画像を生成する LERF が登場しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











自然言語生成タスクにおいて、サンプリング法は生成モデルからテキスト出力を取得する手法です。この記事では、5 つの一般的なメソッドについて説明し、PyTorch を使用してそれらを実装します。 1. 貪欲復号 貪欲復号では、生成モデルは入力シーケンスに基づいて出力シーケンスの単語を時間ごとに予測します。各タイム ステップで、モデルは各単語の条件付き確率分布を計算し、最も高い条件付き確率を持つ単語を現在のタイム ステップの出力として選択します。このワードは次のタイム ステップへの入力となり、指定された長さのシーケンスや特別な終了マーカーなど、何らかの終了条件が満たされるまで生成プロセスが続行されます。 GreedyDecoding の特徴は、毎回現在の条件付き確率が最良になることです。

自然言語生成は、データを自然言語テキストに変換する人工知能テクノロジーです。今日のビッグデータ時代では、データを視覚化したり、ユーザーに提示したりする必要がある企業がますます増えており、自然言語生成は非常に効果的な方法です。 PHP は、Web アプリケーションの開発に使用できる非常に人気のあるサーバー側スクリプト言語です。この記事では、PHP を使用して基本的な自然言語を生成する方法を簡単に紹介します。自然言語生成ライブラリの紹介 PHPに付属している関数ライブラリには自然言語生成に必要な関数が含まれていないため、

新しい論文の著者は、コード生成を「強化する」方法を提案しています。コード生成は、人工知能におけるますます重要な機能です。機械学習モデルをトレーニングすることにより、自然言語記述に基づいてコンピューター コードを自動的に生成します。このテクノロジーには幅広い応用の可能性があり、ソフトウェア仕様を使用可能なコードに変換し、バックエンド開発を自動化し、人間のプログラマーを支援して作業効率を向上させることができます。ただし、AI システムにとって高品質のコードを生成することは、翻訳や要約などの言語タスクに比べて依然として困難です。コードはターゲット プログラミング言語の構文に正確に準拠し、エッジ ケースや予期しない入力を適切に処理し、問題の説明の多くの細かい詳細を正確に処理する必要があります。他の領域では無害に見える小さなバグでも、プログラムの機能を完全に混乱させ、問題を引き起こす可能性があります。

この記事では、人気のある機械学習プロジェクトであるテキスト ジェネレーターを紹介します。テキスト ジェネレーターの構築方法と、より高速な予測モデルを実現するマルコフ連鎖の実装方法を学びます。テキスト ジェネレーターの概要 テキスト生成は、あらゆる業界、特にモバイル、アプリ、データ サイエンスの分野で人気があります。報道機関でも、執筆プロセスを支援するためにテキスト生成を使用しています。日常生活では、テキスト生成テクノロジーに触れることがあります。テキスト補完、検索候補、スマート作成、チャット ロボットなどはすべてアプリケーションの例です。この記事では、マルコフ連鎖を使用してテキスト ジェネレーターを構築します。これは、チェーンの前の文字を取得し、シーケンス内の次の文字を生成する文字ベースのモデルになります。サンプル単語でプログラムをトレーニングすることにより、

GPT-4 を統合する Github Copilot X はまだ小規模な内部テスト中ですが、GPT-4 を統合する Cursor は公開されています。 Cursor は GPT-4 を統合した IDE で、自然言語でコードを記述できるため、チャットするのと同じくらい簡単にコードを作成できます。 GPT-4 と GPT-3.5 の間には、コードを処理して作成する能力において、依然として大きな違いがあります。公式サイトからのテストレポートです。最初の 2 つはテキスト入力を使用する GPT-4、もう 1 つは画像入力を使用する GPT-4、3 つ目は GPT3.5 であり、GPT-4 のコーディング能力は GPT-3.5 と比較して大幅に向上していることがわかります。 GPT-4 を統合した Github Copilot X はまだ小規模なテスト段階にあり、

ChatGPT などの会話型 AI の登場により、人々はこの種のことに慣れてきました。テキスト、コード、または画像を入力すると、会話型ロボットがあなたの望む答えを返してくれます。しかし、この単純な対話方法の背後では、AI モデルは非常に複雑なデータ処理と計算を実行する必要があり、トークン化が一般的です。自然言語処理の分野では、トークン化とは、テキスト入力を「トークン」と呼ばれる小さな単位に分割することを指します。これらのトークンは、特定の単語分割戦略とタスク要件に応じて、単語、サブワード、または文字になります。たとえば、「私はリンゴを食べるのが好きです」という文に対してトークン化を実行すると、一連のトークンが得られます: [&qu

中国サイバー空間局(以下、中国サイバー空間局)は4月11日、「生成型人工知能サービスの管理措置(意見募集草案)」を起草・公表し、1カ月にわたる意見募集を開始した。公共。この管理措置(意見募集案)は全21条からなり、適用範囲としては、生成型人工知能サービスを提供する事業者だけでなく、そのサービスを利用する組織や個人も含み、管理措置はその成果物を対象とする。生成型人工知能の内容、価値観、サービスプロバイダーのトレーニング原則、プライバシー/知的財産権およびその他の権利の保護など。 GPT などの大規模な自然言語生成モデルや製品の出現により、一般の人々は人工知能の急速な進歩を体験できるようになっただけでなく、偏った差別的な情報の生成などのセキュリティ リスクも露呈しました。

データは現在、最も価値のある企業商品の 1 つです。 CIO.com の「State of the CIO 2022」レポートによると、IT リーダーの 35% が、今年の組織の IT 投資の最大の割合をデータとビジネス分析が占めると回答し、回答者の 58% は来年も同様であると回答しています。彼らはデータ分析への投資を増やすでしょう。データにはさまざまな形式がありますが、おそらく最大の未開発のデータ プールはテキストです。特許、製品仕様、学術出版物、市場調査、ニュース、ソーシャル フィードなど、すべてテキストベースであり、テキストの量も増加しています。 。 Foundry の 2022 年のデータと分析に関する調査によると、IT リーダーの 36% は、この非構造化データの管理が直面する最大の課題であると考えています。
