ホームページ テクノロジー周辺機器 AI CVPR 2024 | Byte は、COCO 粒度セグメンテーションよりも高密度の新世代のデータセット COCONut を提案します

CVPR 2024 | Byte は、COCO 粒度セグメンテーションよりも高密度の新世代のデータセット COCONut を提案します

Apr 22, 2024 pm 04:20 PM
git プロジェクト ビデオ編集 cvpr2024 coconut

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。

人工知能の開発により、言語モデルと生成モデルは多くの成功を収めており、モデルの設計過程で、モデルのパラメータも大きくなっています。タスクを詳細に理解するために、モデルパラメータの数も増加しています。ただし、既存のデータ セットにはスケールと精度の間に矛盾があります。たとえば、SA-1B データ セットのマスクの 99.1% は機械によって生成されていますが、他の公開データ セットにも精度があります。データ セットのサイズは一般に比較的小さいです。

最近、ByteDance は、現代の深層学習モデルの設計ニーズに応えて、合計 383,000 個の画像が含まれる新世代の詳細な理解データセットを提案しました。パノラマ セグメンテーションの手動アノテーションは最終的に 518 万マスクに達しました。これは、COCONut と名付けられた、これまでの手動ラベルを備えた最大のパノラマ セグメンテーション理解データ セットです。この成果はCVPR2024に選出されました。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

  • 紙のリンク: https://arxiv.org/abs/2404.08639
  • コードとデータリンクを設定: https://xdeng7.github.io/coconut.github.io/

ビデオは、単一の画像のマスクを示しています。 COCONut 密度およびセマンティック カテゴリの統計から、データ セットのセマンティクスが豊富で、マスク セグメンテーションの粒度が細かいことがわかります。このデータセットは、パノラマ セグメンテーション、インスタンス セグメンテーション、セマンティック セグメンテーション、オブジェクト検出、セマンティック制御生成、オープン ボキャブラリー セグメンテーションなどのさまざまな理解タスクもサポートしており、複数のタスクにおいて、データセットを置き換えるだけで大​​幅なパフォーマンスの向上が達成されます。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

アノテーション方法

通常、手動アノテーションのみを使用すると非常にコストがかかります。これもまた、これは、既存のパブリック データ セットのほとんどがサイズを拡大できない重要な理由です。モデルによって生成されたラベルを直接使用するデータセットもありますが、多くの場合、この生成されたラベルはモデルのトレーニングを大幅に改善しません。この記事でもこれを検証します。したがって、この論文では、手動による半自動ラベル生成と組み合わせた新しいアノテーション方法を提案します。データ注釈の正確性を確保できるだけでなく、手作業のコストを節約し、注釈プロセスを高速化することもできます。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

ラベリング精度の比較

研究者は COCONut と COCO を同じ写真上に配置しました比較のための注釈。下の図の比較から、この記事で提案するアノテーション方法は、Photoshop を使用した純粋な手動アノテーションとほぼ同じ精度を達成しながら、アノテーション速度が 10 倍以上高速であることがわかります。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

COCONut データセットの詳細

と比較既存の COCO データ セットでは、データ セット内の各カテゴリの分布は比較的似ていますが、特に 100 を超えるマスクを持つ単一の画像が多数ある場合、各画像内のマスクの合計数が COCO データ セットを超えます。これは、COCONut のアノテーションがより洗練されており、細分化がより集中していることを示しています。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

実験的検証

研究者らは、より良いトレーニング セットを提案することに加えて、既存の検証セットがモデルを十分に反映していないことも発見しました。パフォーマンスの向上が期待できるため、この記事では、COCONut-val というモデルの改善を反映できる、より挑戦的なテスト セットも提案します。以下の表からわかるように、データ セットを置き換えるだけで、より精度の高いトレーニング セットを作成できます。パノラマ セグメンテーションで 4 ポイントを超える PQ に達するなど、モデルに大きな改善がもたらされました。ただし、トレーニング セットのサイズが増加すると、既存のテスト セットを使用したテストではモデルの改善が反映されていないことがわかりますが、COCONut-val では、トレーニング量を増やした後でもモデルに明らかな改善が残っていることが反映されることがあります。データを設定します。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

次の図は、検証セットの意味カテゴリとマスク密度の比較を示しています。新しく提案された検証セットはより困難であり、より適切に反映されていることがわかります。モデルの改良。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

その他の実験結果については、元の論文を参照してください。チームは、データ セットと対応するモデルを GitHub ホームページで公開ダウンロードできるようにする予定です。

ByteDance インテリジェント クリエーション チーム

インテリジェント クリエーション チームBytedance の AI およびマルチメディア テクノロジー チームであり、コンピューター ビジョン、オーディオおよびビデオ編集、特殊効果処理、その他の技術分野をカバーしており、同社の豊富なビジネス シナリオ、インフラストラクチャ リソース、および技術協力の雰囲気を活用して、最先端のアルゴリズムを実現しています。エンジニアリング システム - 製品 フルリンク クローズド ループは、社内ビジネスに最先端のコンテンツ理解、コンテンツ作成、インタラクティブなエクスペリエンスと消費機能、およびさまざまな形での業界ソリューションを提供することを目的としています。

現在、インテリジェント創造チームは、ByteDance が所有するクラウド サービス プラットフォームである Volcano Engine を通じて、その技術能力とサービスを企業に公開しています。大規模モデルのアルゴリズムに関連するポジションがさらに募集されています。

以上がCVPR 2024 | Byte は、COCO 粒度セグメンテーションよりも高密度の新世代のデータセット COCONut を提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

GOの浮動小数点番号操作に使用されるライブラリは何ですか? GOの浮動小数点番号操作に使用されるライブラリは何ですか? Apr 02, 2025 pm 02:06 PM

GO言語の浮動小数点数操作に使用されるライブラリは、精度を確保する方法を紹介します...

Giteeページ静的なWebサイトの展開に失敗しました:単一のファイル404エラーをトラブルシューティングと解決する方法 Giteeページ静的なWebサイトの展開に失敗しました:単一のファイル404エラーをトラブルシューティングと解決する方法 Apr 04, 2025 pm 11:54 PM

GiteEpages静的Webサイトの展開が失敗しました:404エラーのトラブルシューティングと解像度Giteeを使用する

GOのどのライブラリが大企業によって開発されていますか、それとも有名なオープンソースプロジェクトによって提供されていますか? GOのどのライブラリが大企業によって開発されていますか、それとも有名なオープンソースプロジェクトによって提供されていますか? Apr 02, 2025 pm 04:12 PM

大企業または有名なオープンソースプロジェクトによって開発されたGOのどのライブラリが開発されていますか? GOでプログラミングするとき、開発者はしばしばいくつかの一般的なニーズに遭遇します...

海外バージョンの配送地域データを取得する方法は?利用可能な既製のリソースは何ですか? 海外バージョンの配送地域データを取得する方法は?利用可能な既製のリソースは何ですか? Apr 01, 2025 am 08:15 AM

質問の説明:海外バージョンの配送地域データを取得する方法は?既製のリソースはありますか?国境を越えた電子商取引またはグローバル化ビジネスで正確に入手してください...

H5プロジェクトの実行方法 H5プロジェクトの実行方法 Apr 06, 2025 pm 12:21 PM

H5プロジェクトを実行するには、次の手順が必要です。Webサーバー、node.js、開発ツールなどの必要なツールのインストール。開発環境の構築、プロジェクトフォルダーの作成、プロジェクトの初期化、コードの書き込み。開発サーバーを起動し、コマンドラインを使用してコマンドを実行します。ブラウザでプロジェクトをプレビューし、開発サーバーURLを入力します。プロジェクトの公開、コードの最適化、プロジェクトの展開、Webサーバーの構成のセットアップ。

Python hourglassグラフ図面:可変未定義エラーを避ける方法は? Python hourglassグラフ図面:可変未定義エラーを避ける方法は? Apr 01, 2025 pm 06:27 PM

Python:Hourglassグラフィック図面と入力検証この記事では、Python NoviceがHourglass Graphic Drawingプログラムで遭遇する可変定義の問題を解決します。コード...

Beego ormのモデルに関連付けられているデータベースを指定する方法は? Beego ormのモデルに関連付けられているデータベースを指定する方法は? Apr 02, 2025 pm 03:54 PM

Beegoormフレームワークでは、モデルに関連付けられているデータベースを指定する方法は?多くのBEEGOプロジェクトでは、複数のデータベースを同時に操作する必要があります。 Beegoを使用する場合...

See all articles