ホームページ テクノロジー周辺機器 AI 「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

Mar 08, 2024 pm 03:46 PM
ai 電車

オクルージョンは、コンピュータ ビジョンにおける最も基本的でありながら未解決の問題の 1 つです。オクルージョンとは視覚情報の欠如を意味しますが、マシン ビジョン システムは知覚と理解のために視覚情報に依存しており、実際には世界では、オブジェクト間の相互オクルージョンがあらゆる場所で発生します。オックスフォード大学の VGG 研究所の Andrew Zisserman チームの最新の研究では、任意のオブジェクトのオクルージョン完了の問題を体系的に解決し、この問題に対する新しくてより正確な評価データ セットを提案しました。この作品はXプラットフォーム上でMPIボスのマイケル・ブラック氏やCVPRの公式アカウント、南カリフォルニア大学コンピュータサイエンス学部の公式アカウントなどから賞賛された。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。


  • #紙のリンク: https://arxiv.org/pdf/2312.17247.pdf
  • #プロジェクトのホームページ: https://www.robots.ox.ac.uk/~vgg/research/amodal/
  • コード アドレス: https://github.com/Championchess/Amodal-Completion-in-the-Wild
Amodal Segmentation は、遮蔽されたパーツ、つまり、オブジェクトの可視部分と不可視部分を与えるシェイプ マスク。このタスクは、オブジェクト認識、ターゲット検出、インスタンス セグメンテーション、画像編集、3D 再構成、ビデオ オブジェクト セグメンテーション、オブジェクト間の関係推論のサポート、ロボットの操作とナビゲーションなど、多くの下流タスクに利益をもたらします。これらのタスクでは、遮蔽されたオブジェクトがそのままの形状が役に立ちます。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

ただし、現実世界で非モーダル セグメンテーションのモデルのパフォーマンスを評価する方法は難しい問題です。遮蔽されたオブジェクトの数はわかりますが、これらのオブジェクトの完全な形状の参照標準または非モーダル マスクを取得するにはどうすればよいでしょうか?これまでの作業では、非モーダルマスクに対する手動のアノテーションが行われていましたが、そのようなアノテーションの参照標準では人的エラーの導入を避けるのが難しく、また、完全なオブジェクトに別のオブジェクトを直接アタッチするなど、合成データセットを作成することによる作業もあります。遮蔽されたオブジェクトの完全な形状が得られますが、この方法で取得された画像は実際の画像シーンではありません。したがって、この研究では、3D モデル投影を通じて、複数のオブジェクト カテゴリをカバーする大規模な実画像データセット (MP3D-Amodal) を構築し、アモーダル セグメンテーションのパフォーマンスを正確に評価するためのアモーダル マスクを提供する方法を提案します。さまざまなデータ セットの比較は次のとおりです。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

具体的には、実際の写真やシーンについて、MatterPort3D データ セットを例として取り上げます。 3 次元構造化データ セットを使用すると、シーン内のすべてのオブジェクトの 3 次元形状を同時にカメラに投影して、各オブジェクトのモーダル マスク (オブジェクトが互いに遮蔽しているため、目に見える形状) を取得してから、各オブジェクトを投影できます。シーン内では、オブジェクトの 3 次元形状がそれぞれカメラに投影され、オブジェクトのノンモーダル マスク、つまり完全な形状が取得されます。モーダルマスクとノンモーダルマスクを比較することで、遮蔽されたオブジェクトを抽出することができます。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。#データセットの統計は次のとおりです:

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。データセットのサンプルは以下のとおりです。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。#また、問題を解決するために、著者が抽出した任意のオブジェクトの完全な形状再構成タスク 安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽されたオブジェクトの非モーダル セグメンテーションを実行します 具体的なアーキテクチャは次のとおりです (SDAmodal) ):

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

安定拡散機能を使用する動機は、安定拡散には画像を完成させる機能があるため、オブジェクトに関するすべての情報がある程度含まれる可能性があるためです。安定した拡散 多数の画像を使用してトレーニングした後、その機能があらゆる環境のあらゆるオブジェクトを処理する能力を持つことが期待できます。以前の 2 段階のフレームワークとは異なり、SDAmodal は入力としてマークされたオクルージョン マスクを必要としません。SDAmodal は単純な構造を持っていますが、強力なゼロサンプル汎化能力を示します (次の表の設定 F と H を比較してください。COCOA のトレーニングでのみ改善できます)異なるドメインおよび異なるカテゴリの別のデータセット上で); 遮蔽されたオブジェクトの注釈がない場合でも、SDAmodal は、複数のタイプの遮蔽されたオブジェクトをカバーする既存のデータセット COCOA と、新しく提案された MP3D-Amodal データセットを改善できます。 SOTA性能(設定H)を達成しました。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

定量的な実験に加えて、定性的な比較にも SDAmodal モデルの利点が反映されています。以下の図からわかります (すべてのモデルはCOCOA トレーニングのみ)、COCOA または別の MP3D-Amodal のいずれからのものでも、さまざまなタイプのオクルージョンされたオブジェクトに対して、SDAmodal は非モーダル セグメンテーションの効果を大幅に向上させることができ、予測された非モーダル マスクは現実に近づきます。

「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。

詳細については、原論文をお読みください。

以上が「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

CでDMA操作を理解する方法は? CでDMA操作を理解する方法は? Apr 28, 2025 pm 10:09 PM

CのDMAとは、直接メモリアクセステクノロジーであるDirectMemoryAccessを指し、ハードウェアデバイスがCPU介入なしでメモリに直接データを送信できるようにします。 1)DMA操作は、ハードウェアデバイスとドライバーに大きく依存しており、実装方法はシステムごとに異なります。 2)メモリへの直接アクセスは、セキュリティリスクをもたらす可能性があり、コードの正確性とセキュリティを確保する必要があります。 3)DMAはパフォーマンスを改善できますが、不適切な使用はシステムのパフォーマンスの低下につながる可能性があります。実践と学習を通じて、DMAを使用するスキルを習得し、高速データ送信やリアルタイム信号処理などのシナリオでその効果を最大化できます。

CでChronoライブラリを使用する方法は? CでChronoライブラリを使用する方法は? Apr 28, 2025 pm 10:18 PM

CでChronoライブラリを使用すると、時間と時間の間隔をより正確に制御できます。このライブラリの魅力を探りましょう。 CのChronoライブラリは、時間と時間の間隔に対処するための最新の方法を提供する標準ライブラリの一部です。 Time.HとCtimeに苦しんでいるプログラマーにとって、Chronoは間違いなく恩恵です。コードの読みやすさと保守性を向上させるだけでなく、より高い精度と柔軟性も提供します。基本から始めましょう。 Chronoライブラリには、主に次の重要なコンポーネントが含まれています。STD:: Chrono :: System_Clock:現在の時間を取得するために使用されるシステムクロックを表します。 STD :: Chron

定量的交換ランキング2025デジタル通貨のトップ10の推奨事項定量取引アプリ 定量的交換ランキング2025デジタル通貨のトップ10の推奨事項定量取引アプリ Apr 30, 2025 pm 07:24 PM

交換に組み込まれた量子化ツールには、1。Binance:Binance先物の定量的モジュール、低い取り扱い手数料を提供し、AIアシストトランザクションをサポートします。 2。OKX(OUYI):マルチアカウント管理とインテリジェントな注文ルーティングをサポートし、制度レベルのリスク制御を提供します。独立した定量的戦略プラットフォームには、3。3Commas:ドラッグアンドドロップ戦略ジェネレーター、マルチプラットフォームヘッジアービトラージに適しています。 4。Quadency:カスタマイズされたリスクしきい値をサポートするプロフェッショナルレベルのアルゴリズム戦略ライブラリ。 5。Pionex:組み込み16のプリセット戦略、低い取引手数料。垂直ドメインツールには、6。cryptohopper:クラウドベースの定量的プラットフォーム、150の技術指標をサポートします。 7。BITSGAP:

CでハイDPIディスプレイを処理する方法は? CでハイDPIディスプレイを処理する方法は? Apr 28, 2025 pm 09:57 PM

CでのハイDPIディスプレイの取り扱いは、次の手順で達成できます。1)DPIを理解してスケーリングし、オペレーティングシステムAPIを使用してDPI情報を取得し、グラフィックスの出力を調整します。 2)クロスプラットフォームの互換性を処理し、SDLやQTなどのクロスプラットフォームグラフィックライブラリを使用します。 3)パフォーマンスの最適化を実行し、キャッシュ、ハードウェアアクセラレーション、および詳細レベルの動的調整によりパフォーマンスを改善します。 4)ぼやけたテキストやインターフェイス要素などの一般的な問題を解決し、DPIスケーリングを正しく適用することで解決します。

Cのリアルタイムオペレーティングシステムプログラミングとは何ですか? Cのリアルタイムオペレーティングシステムプログラミングとは何ですか? Apr 28, 2025 pm 10:15 PM

Cは、リアルタイムオペレーティングシステム(RTOS)プログラミングでうまく機能し、効率的な実行効率と正確な時間管理を提供します。 1)Cハードウェアリソースの直接的な動作と効率的なメモリ管理を通じて、RTOのニーズを満たします。 2)オブジェクト指向の機能を使用して、Cは柔軟なタスクスケジューリングシステムを設計できます。 3)Cは効率的な割り込み処理をサポートしますが、リアルタイムを確保するには、動的メモリの割り当てと例外処理を避ける必要があります。 4)テンプレートプログラミングとインライン関数は、パフォーマンスの最適化に役立ちます。 5)実際のアプリケーションでは、Cを使用して効率的なロギングシステムを実装できます。

Cのスレッドパフォーマンスを測定する方法は? Cのスレッドパフォーマンスを測定する方法は? Apr 28, 2025 pm 10:21 PM

Cのスレッドパフォーマンスの測定は、標準ライブラリのタイミングツール、パフォーマンス分析ツール、およびカスタムタイマーを使用できます。 1.ライブラリを使用して、実行時間を測定します。 2。パフォーマンス分析にはGPROFを使用します。手順には、コンピレーション中に-pgオプションを追加し、プログラムを実行してGmon.outファイルを生成し、パフォーマンスレポートの生成が含まれます。 3. ValgrindのCallGrindモジュールを使用して、より詳細な分析を実行します。手順には、プログラムを実行してCallGrind.outファイルを生成し、Kcachegrindを使用して結果を表示することが含まれます。 4.カスタムタイマーは、特定のコードセグメントの実行時間を柔軟に測定できます。これらの方法は、スレッドのパフォーマンスを完全に理解し、コードを最適化するのに役立ちます。

MySQLにデータを挿入する効率的な方法 MySQLにデータを挿入する効率的な方法 Apr 29, 2025 pm 04:18 PM

MySQLでデータを挿入するための効率的な方法には、次のものが含まれます。1。insertInto ...値構文、2。LoadDatainFileコマンドの使用、3。トランザクション処理の使用、4。バッチサイズの調整、5。Insurtignoreまたは挿入の使用...

Cで文字列ストリームを使用する方法は? Cで文字列ストリームを使用する方法は? Apr 28, 2025 pm 09:12 PM

Cで文字列ストリームを使用するための主な手順と予防策は次のとおりです。1。出力文字列ストリームを作成し、整数を文字列に変換するなどのデータを変換します。 2。ベクトルを文字列に変換するなど、複雑なデータ構造のシリアル化に適用します。 3.パフォーマンスの問題に注意を払い、大量のデータを処理するときに文字列ストリームを頻繁に使用することを避けます。 std :: stringの追加方法を使用することを検討できます。 4.メモリ管理に注意を払い、ストリングストリームオブジェクトの頻繁な作成と破壊を避けます。 std :: stringstreamを再利用または使用できます。

See all articles