CVPR 2024 | Byte は、COCO 粒度セグメンテーションよりも高密度の新世代のデータセット COCONut を提案します

王林
リリース: 2024-04-22 16:20:12
転載
1162 人が閲覧しました
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。

人工知能の開発により、言語モデルと生成モデルは多くの成功を収めており、モデルの設計過程で、モデルのパラメータも大きくなっています。タスクを詳細に理解するために、モデルパラメータの数も増加しています。ただし、既存のデータ セットにはスケールと精度の間に矛盾があります。たとえば、SA-1B データ セットのマスクの 99.1% は機械によって生成されていますが、他の公開データ セットにも精度があります。データ セットのサイズは一般に比較的小さいです。

最近、ByteDance は、現代の深層学習モデルの設計ニーズに応えて、合計 383,000 個の画像が含まれる新世代の詳細な理解データセットを提案しました。パノラマ セグメンテーションの手動アノテーションは最終的に 518 万マスクに達しました。これは、COCONut と名付けられた、これまでの手動ラベルを備えた最大のパノラマ セグメンテーション理解データ セットです。この成果はCVPR2024に選出されました。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

  • 紙のリンク: https://arxiv.org/abs/2404.08639
  • コードとデータリンクを設定: https://xdeng7.github.io/coconut.github.io/

ビデオは、単一の画像のマスクを示しています。 COCONut 密度およびセマンティック カテゴリの統計から、データ セットのセマンティクスが豊富で、マスク セグメンテーションの粒度が細かいことがわかります。このデータセットは、パノラマ セグメンテーション、インスタンス セグメンテーション、セマンティック セグメンテーション、オブジェクト検出、セマンティック制御生成、オープン ボキャブラリー セグメンテーションなどのさまざまな理解タスクもサポートしており、複数のタスクにおいて、データセットを置き換えるだけで大​​幅なパフォーマンスの向上が達成されます。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

アノテーション方法

通常、手動アノテーションのみを使用すると非常にコストがかかります。これもまた、これは、既存のパブリック データ セットのほとんどがサイズを拡大できない重要な理由です。モデルによって生成されたラベルを直接使用するデータセットもありますが、多くの場合、この生成されたラベルはモデルのトレーニングを大幅に改善しません。この記事でもこれを検証します。したがって、この論文では、手動による半自動ラベル生成と組み合わせた新しいアノテーション方法を提案します。データ注釈の正確性を確保できるだけでなく、手作業のコストを節約し、注釈プロセスを高速化することもできます。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

ラベリング精度の比較

研究者は COCONut と COCO を同じ写真上に配置しました比較のための注釈。下の図の比較から、この記事で提案するアノテーション方法は、Photoshop を使用した純粋な手動アノテーションとほぼ同じ精度を達成しながら、アノテーション速度が 10 倍以上高速であることがわかります。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

COCONut データセットの詳細

と比較既存の COCO データ セットでは、データ セット内の各カテゴリの分布は比較的似ていますが、特に 100 を超えるマスクを持つ単一の画像が多数ある場合、各画像内のマスクの合計数が COCO データ セットを超えます。これは、COCONut のアノテーションがより洗練されており、細分化がより集中していることを示しています。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

実験的検証

研究者らは、より良いトレーニング セットを提案することに加えて、既存の検証セットがモデルを十分に反映していないことも発見しました。パフォーマンスの向上が期待できるため、この記事では、COCONut-val というモデルの改善を反映できる、より挑戦的なテスト セットも提案します。以下の表からわかるように、データ セットを置き換えるだけで、より精度の高いトレーニング セットを作成できます。パノラマ セグメンテーションで 4 ポイントを超える PQ に達するなど、モデルに大きな改善がもたらされました。ただし、トレーニング セットのサイズが増加すると、既存のテスト セットを使用したテストではモデルの改善が反映されていないことがわかりますが、COCONut-val では、トレーニング量を増やした後でもモデルに明らかな改善が残っていることが反映されることがあります。データを設定します。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

次の図は、検証セットの意味カテゴリとマスク密度の比較を示しています。新しく提案された検証セットはより困難であり、より適切に反映されていることがわかります。モデルの改良。

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

その他の実験結果については、元の論文を参照してください。チームは、データ セットと対応するモデルを GitHub ホームページで公開ダウンロードできるようにする予定です。

ByteDance インテリジェント クリエーション チーム

インテリジェント クリエーション チームBytedance の AI およびマルチメディア テクノロジー チームであり、コンピューター ビジョン、オーディオおよびビデオ編集、特殊効果処理、その他の技術分野をカバーしており、同社の豊富なビジネス シナリオ、インフラストラクチャ リソース、および技術協力の雰囲気を活用して、最先端のアルゴリズムを実現しています。エンジニアリング システム - 製品 フルリンク クローズド ループは、社内ビジネスに最先端のコンテンツ理解、コンテンツ作成、インタラクティブなエクスペリエンスと消費機能、およびさまざまな形での業界ソリューションを提供することを目的としています。

現在、インテリジェント創造チームは、ByteDance が所有するクラウド サービス プラットフォームである Volcano Engine を通じて、その技術能力とサービスを企業に公開しています。大規模モデルのアルゴリズムに関連するポジションがさらに募集されています。

以上がCVPR 2024 | Byte は、COCO 粒度セグメンテーションよりも高密度の新世代のデータセット COCONut を提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!