具体的な原則

研究チーム

ホームページ

テクノロジー周辺機器

3D モデルのセグメンテーションの新しい方法により、両手が解放されます。手動のラベル付けは必要なく、必要なトレーニングは 1 回だけで、ラベルのないカテゴリも認識可能 | HKU & Byte

3D モデルのセグメンテーションの新しい方法により、両手が解放されます。手動のラベル付けは必要なく、必要なトレーニングは 1 回だけで、ラベルのないカテゴリも認識可能 | HKU & Byte

PHPz

Apr 01, 2023 am 12:02 AM

3d モデルのセグメンテーション手動注釈

手動による注釈は必要ありません。3D モデルが言語を理解し、ラベルのないカテゴリを識別できるようにするために必要なトレーニングは 1 回だけです。

3D モデルのセグメンテーションがハンズフリーで行えるようになりました。

香港大学と ByteDream は協力して新しい方法を考案しました:

手動による注釈は必要なく、3D モデルを可能にするために必要なトレーニングは 1 回だけです。言語を理解し、未知のオブジェクトを識別します。

たとえば、次の注釈のない黒板とモニターの例を見てください。この方法で 3D モデルをトレーニングすると、セグメンテーションのターゲットをすばやく「把握」できます。

別の例として、ソファや咳などの同義語を入力して物事を難しくすると、簡単に勝つことができます。

# バスルームなどの抽象的なカテゴリでも解決できます。

この新しい手法は PLA (Point-Language Association) と呼ばれ、点群 (ターゲット表面特性の大量の点の集合) と自然言語を組み合わせた手法です。

現在、この論文は CVPR 2023 に受理されました。

とはいえ、手動でアノテーションを付ける必要はなく、トレーニングは 1 回だけ実行され、同義語の抽象分類も認識できます。これは次の重ね合わせです。複数のバフ。

一般的な方法で使用される 3D データと自然言語は、インターネットから無料で直接入手することはできず、多くの場合、高価な手動の注釈が必要であること、および一般的な方法は 3D データと自然言語間の意味関係に基づくことができないことを知っておく必要があります。新しいカテゴリを特定します。

それでは、人民解放軍はどのようにしてそれを行うのでしょうか?見てみましょう~

具体的な原則

実際、率直に言えば、3D モデルの分割を成功させるための最も重要なステップは、3D データに自然言語を理解させることです。

専門的に言えば、3D 点群に自然言語記述を導入することです。

導入方法は？

現在、2D 画像を分割する比較的成功した方法があるという事実を考慮して、研究チームは 2D 画像から始めることにしました。

まず、3D 点群を対応する 2D 画像に変換し、それを 2D マルチモーダル大規模モデルの入力として使用し、そこから画像の言語記述を抽出します。

次に、画像と点群間の射影関係を使用して、画像の言語記述を 3D 点群データに自然に関連付けることができます。

さらに、異なる粒度の 3D オブジェクトと互換性を持たせるために、PLA は多粒度の 3D 点群と自然言語の関連付け方法も提案しています。

3D シーン全体について、PLA はシーンに対応するすべての画像から抽出された言語記述を要約し、この要約された言語を使用して 3D シーン全体を関連付けます。

各画像ビューに対応する 3D シーンの部分については、PLA は画像をブリッジとして直接使用し、対応する 3D 点群と言語を関連付けます。

よりきめ細かい 3D オブジェクトの場合、PLA は、異なる画像の対応する点群間の交差と結合、および言語記述部分の交差と結合を比較することにより、より詳細な方法を提供します。言語相関アプローチ。

このようにして、研究チームは 3D 点群と自然言語のペアを取得することができ、これにより手動による注釈の問題が直接解決されます。

PLA は、取得した「3D 点群と自然言語」のペアと既存のデータセット監視を使用して、3D モデルが検出とセグメンテーションの問題定義を理解できるようにします。

具体的には、対比学習を使用して、特徴空間内の 3D 点群と自然言語の各ペア間の距離を縮め、一致しない 3D 点群と自然言語の記述を遠ざけます。

これまで多くの原則について説明してきましたが、PLA は特定のセグメンテーションタスクでどのように機能するのでしょうか?

セマンティックセグメンテーションタスクはベースラインを 65% 上回りました

研究者らは、主な測定基準としてラベルのないカテゴリで 3D オープンワールドモデルのパフォーマンスをテストしました。

まず、ScanNet と S3DIS のセマンティックセグメンテーションタスクにおいて、PLA は以前のベースライン手法を 35% ～ 65% 上回りました。

インスタンスセグメンテーションタスクでは、PLA も改善されており、以前の方法と比較して、PLA の改善範囲は 15% ～ 50% です。

研究チーム

このプロジェクトの研究チームは、香港大学の CVMI Lab と ByteDance から来ています。

CVMI Labは香港大学の人工知能研究室で、2020年2月1日に設立されました。

研究範囲は、コンピュータービジョンとパターン認識、機械学習/ディープラーニング、画像/ビデオコンテンツ分析、機械インテリジェンスに基づく産業ビッグデータ分析をカバーします。

論文アドレス: https://arxiv.org/pdf/2211.16312.pdf
プロジェクトホームページ: https: // github.com/CVMI-Lab/PLA

以上が3D モデルのセグメンテーションの新しい方法により、両手が解放されます。手動のラベル付けは必要なく、必要なトレーニングは 1 回だけで、ラベルのないカテゴリも認識可能 | HKU & Byteの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7487

CakePHP チュートリアル

1377

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

なぜ自動運転ではガウススプラッティングが非常に人気があるのに、NeRF は放棄され始めているのでしょうか? Jan 17, 2024 pm 02:57 PM

上記と著者の個人的な理解 3 次元ガウシアンプラッティング (3DGS) は、近年、明示的な放射線フィールドとコンピューターグラフィックスの分野で出現した革新的なテクノロジーです。この革新的な方法は、数百万の 3D ガウスを使用することを特徴とし、主に暗黙的な座標ベースのモデルを使用して空間座標をピクセル値にマッピングする神経放射線場 (NeRF) 方法とは大きく異なります。明示的なシーン表現と微分可能なレンダリングアルゴリズムにより、3DGS はリアルタイムレンダリング機能を保証するだけでなく、前例のないレベルの制御とシーン編集も導入します。これにより、3DGS は、次世代の 3D 再構築と表現にとって大きな変革をもたらす可能性のあるものとして位置付けられます。この目的を達成するために、私たちは 3DGS 分野における最新の開発と懸念について初めて体系的な概要を提供します。

Microsoft Teams の 3D Fluent 絵文字について学ぶ Apr 24, 2023 pm 10:28 PM

特に Teams ユーザーの場合は、Microsoft が仕事中心のビデオ会議アプリに 3DFluent 絵文字の新しいバッチを追加したことを覚えておく必要があります。 Microsoft が昨年 Teams と Windows 向けの 3D 絵文字を発表した後、その過程で実際に 1,800 を超える既存の絵文字がプラットフォーム用に更新されました。この大きなアイデアと Teams 用の 3DFluent 絵文字アップデートの開始は、公式ブログ投稿を通じて最初に宣伝されました。 Teams の最新アップデートでアプリに FluentEmojis が追加 Microsoft は、更新された 1,800 個の絵文字を毎日利用できるようになると発表

カメラかライダーを選択しますか?堅牢な 3D オブジェクト検出の実現に関する最近のレビュー Jan 26, 2024 am 11:18 AM

0.前面に書かれています&& 自動運転システムは、さまざまなセンサー (カメラ、ライダー、レーダーなど) を使用して周囲の環境を認識し、アルゴリズムとモデルを使用することにより、高度な知覚、意思決定、および制御テクノロジーに依存しているという個人的な理解リアルタイムの分析と意思決定に。これにより、車両は道路標識の認識、他の車両の検出と追跡、歩行者の行動の予測などを行うことで、安全な運行と複雑な交通環境への適応が可能となり、現在広く注目を集めており、将来の交通分野における重要な開発分野と考えられています。。 1つ。しかし、自動運転を難しくしているのは、周囲で何が起こっているかを車に理解させる方法を見つけることです。これには、自動運転システムの 3 次元物体検出アルゴリズムが、周囲環境にある物体 (位置を含む) を正確に認識し、記述することができる必要があります。

CLIP-BEVFormer: BEVFormer 構造を明示的に監視して、ロングテール検出パフォーマンスを向上させます。 Mar 26, 2024 pm 12:41 PM

上記および筆者の個人的な理解: 現在、自動運転システム全体において、認識モジュールが重要な役割を果たしている｡道路を走行する自動運転車は、認識モジュールを通じてのみ正確な認識結果を得ることができる｡下流の規制および制御モジュール自動運転システムでは、タイムリーかつ正確な判断と行動決定が行われます。現在、自動運転機能を備えた自動車には通常、サラウンドビューカメラセンサー、ライダーセンサー、ミリ波レーダーセンサーなどのさまざまなデータ情報センサーが搭載されており、さまざまなモダリティで情報を収集して正確な認識タスクを実現しています。純粋な視覚に基づく BEV 認識アルゴリズムは、ハードウェアコストが低く導入が容易であるため、業界で好まれており、その出力結果はさまざまな下流タスクに簡単に適用できます。

Windows 11 のペイント 3D: ダウンロード、インストール、および使用ガイド Apr 26, 2023 am 11:28 AM

新しい Windows 11 が開発中であるというゴシップが広まり始めたとき、すべての Microsoft ユーザーは、新しいオペレーティングシステムがどのようなもので、何をもたらすのかに興味を持ちました。憶測を経て、Windows 11が登場しました。オペレーティングシステムには新しい設計と機能の変更が加えられています。いくつかの追加に加えて、機能の非推奨と削除が行われます。 Windows 11 に存在しない機能の 1 つは Paint3D です。描画、落書き、落書きに適したクラシックなペイントは引き続き提供していますが、3D クリエイターに最適な追加機能を提供する Paint3D は廃止されています。追加機能をお探しの場合は、最高の 3D デザインソフトウェアとして Autodesk Maya をお勧めします。のように

カード1枚で30秒でバーチャル3D嫁をゲット！ Text to 3D は、毛穴の詳細が明確な高精度のデジタルヒューマンを生成し、Maya、Unity、その他の制作ツールとシームレスに接続します May 23, 2023 pm 02:34 PM

ChatGPT は AI 業界に鶏の血を注入し、かつては考えられなかったすべてのことが今日では基本的な慣行になりました。進化を続ける Text-to-3D は、AIGC 分野において Diffusion（画像）、GPT（テキスト）に次ぐホットスポットとされ、前例のない注目を集めています。いいえ、ChatAvatar と呼ばれる製品が控えめなパブリックベータ版として公開され、すぐに 700,000 回を超えるビューと注目を集め、Spacesoftheweek で特集されました。 △ChatAvatarは、AIが生成した単一視点/多視点の原画から3Dの様式化されたキャラクターを生成するImageto3D技術にも対応しており、現在のベータ版で生成された3Dモデルは広く注目を集めています。

$オックスフォード大学の最新情報！ミッキー：2D画像を3D SOTAでマッチング！ (CVPR\'24)$ オックスフォード大学の最新情報！ミッキー：2D画像を3D SOTAでマッチング！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケールメトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイントマッチングプロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

自動運転のための 3D 視覚認識アルゴリズムの詳細な解釈 Jun 02, 2023 pm 03:42 PM

自動運転アプリケーションの場合、最終的には 3D シーンを認識することが必要になります。理由は簡単で、車両は画像から得られる知覚結果に基づいて運転することはできませんし、人間のドライバーであっても画像に基づいて運転することはできません。物体までの距離やシーンの奥行き情報は2D認識結果に反映できないため、自動運転システムが周囲の環境を正しく判断するための鍵となります。一般に、自動運転車の視覚センサー（カメラなど）は、車体上部または車内のバックミラーに設置されます。どこにいても、カメラが取得するのは、現実世界を透視図 (PerspectiveView) (世界座標系から画像座標系) に投影したものです。この視点は人間の視覚システムに非常に似ており、

See all articles

3D モデルのセグメンテーションの新しい方法により、両手が解放されます。手動のラベル付けは必要なく、必要なトレーニングは 1 回だけで、ラベルのないカテゴリも認識可能 | HKU & Byte

具体的な原則

セマンティックセグメンテーションタスクはベースラインを 65% 上回りました

研究チーム

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

3D モデルのセグメンテーションの新しい方法により、両手が解放されます。手動のラベル付けは必要なく、必要なトレーニングは 1 回だけで、ラベルのないカテゴリも認識可能 | HKU & Byte

具体的な原則

セマンティック セグメンテーション タスクはベースラインを 65% 上回りました

研究チーム

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

セマンティックセグメンテーションタスクはベースラインを 65% 上回りました