AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。
人工知能の開発により、言語モデルと生成モデルは多くの成功を収めており、モデルの設計過程で、モデルのパラメータも大きくなっています。タスクを詳細に理解するために、モデルパラメータの数も増加しています。ただし、既存のデータ セットにはスケールと精度の間に矛盾があります。たとえば、SA-1B データ セットのマスクの 99.1% は機械によって生成されていますが、他の公開データ セットにも精度があります。データ セットのサイズは一般に比較的小さいです。 最近、ByteDance は、現代の深層学習モデルの設計ニーズに応えて、合計 383,000 個の画像が含まれる新世代の詳細な理解データセットを提案しました。パノラマ セグメンテーションの手動アノテーションは最終的に 518 万マスクに達しました。これは、COCONut と名付けられた、これまでの手動ラベルを備えた最大のパノラマ セグメンテーション理解データ セットです。この成果はCVPR2024に選出されました。
- 紙のリンク: https://arxiv.org/abs/2404.08639
- コードとデータリンクを設定: https://xdeng7.github.io/coconut.github.io/
ビデオは、単一の画像のマスクを示しています。 COCONut 密度およびセマンティック カテゴリの統計から、データ セットのセマンティクスが豊富で、マスク セグメンテーションの粒度が細かいことがわかります。このデータセットは、パノラマ セグメンテーション、インスタンス セグメンテーション、セマンティック セグメンテーション、オブジェクト検出、セマンティック制御生成、オープン ボキャブラリー セグメンテーションなどのさまざまな理解タスクもサポートしており、複数のタスクにおいて、データセットを置き換えるだけで大幅なパフォーマンスの向上が達成されます。
通常、手動アノテーションのみを使用すると非常にコストがかかります。これもまた、これは、既存のパブリック データ セットのほとんどがサイズを拡大できない重要な理由です。モデルによって生成されたラベルを直接使用するデータセットもありますが、多くの場合、この生成されたラベルはモデルのトレーニングを大幅に改善しません。この記事でもこれを検証します。したがって、この論文では、手動による半自動ラベル生成と組み合わせた新しいアノテーション方法を提案します。データ注釈の正確性を確保できるだけでなく、手作業のコストを節約し、注釈プロセスを高速化することもできます。
研究者は COCONut と COCO を同じ写真上に配置しました比較のための注釈。下の図の比較から、この記事で提案するアノテーション方法は、Photoshop を使用した純粋な手動アノテーションとほぼ同じ精度を達成しながら、アノテーション速度が 10 倍以上高速であることがわかります。
と比較既存の COCO データ セットでは、データ セット内の各カテゴリの分布は比較的似ていますが、特に 100 を超えるマスクを持つ単一の画像が多数ある場合、各画像内のマスクの合計数が COCO データ セットを超えます。これは、COCONut のアノテーションがより洗練されており、細分化がより集中していることを示しています。
研究者らは、より良いトレーニング セットを提案することに加えて、既存の検証セットがモデルを十分に反映していないことも発見しました。パフォーマンスの向上が期待できるため、この記事では、COCONut-val というモデルの改善を反映できる、より挑戦的なテスト セットも提案します。以下の表からわかるように、データ セットを置き換えるだけで、より精度の高いトレーニング セットを作成できます。パノラマ セグメンテーションで 4 ポイントを超える PQ に達するなど、モデルに大きな改善がもたらされました。ただし、トレーニング セットのサイズが増加すると、既存のテスト セットを使用したテストではモデルの改善が反映されていないことがわかりますが、COCONut-val では、トレーニング量を増やした後でもモデルに明らかな改善が残っていることが反映されることがあります。データを設定します。
次の図は、検証セットの意味カテゴリとマスク密度の比較を示しています。新しく提案された検証セットはより困難であり、より適切に反映されていることがわかります。モデルの改良。
その他の実験結果については、元の論文を参照してください。チームは、データ セットと対応するモデルを GitHub ホームページで公開ダウンロードできるようにする予定です。 ByteDance インテリジェント クリエーション チームインテリジェント クリエーション チームBytedance の AI およびマルチメディア テクノロジー チームであり、コンピューター ビジョン、オーディオおよびビデオ編集、特殊効果処理、その他の技術分野をカバーしており、同社の豊富なビジネス シナリオ、インフラストラクチャ リソース、および技術協力の雰囲気を活用して、最先端のアルゴリズムを実現しています。エンジニアリング システム - 製品 フルリンク クローズド ループは、社内ビジネスに最先端のコンテンツ理解、コンテンツ作成、インタラクティブなエクスペリエンスと消費機能、およびさまざまな形での業界ソリューションを提供することを目的としています。 現在、インテリジェント創造チームは、ByteDance が所有するクラウド サービス プラットフォームである Volcano Engine を通じて、その技術能力とサービスを企業に公開しています。大規模モデルのアルゴリズムに関連するポジションがさらに募集されています。 以上がCVPR 2024 | Byte は、COCO 粒度セグメンテーションよりも高密度の新世代のデータセット COCONut を提案しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。