ピクセルトランスフォーマー (PiT) がビジョンモデルにおける局所性バイアスのニーズに挑む-ウェブ3.0-php.cn

ピクセルトランスフォーマー (PiT) がビジョンモデルにおける局所性バイアスのニーズに挑む

PHPz

リリース： 2024-06-15 09:31:28

オリジナル

653 人が閲覧しました

Meta AI とアムステルダム大学による最新の研究では、一般的なニューラルネットワークアーキテクチャであるトランスフォーマーが、最新のコンピュータービジョンモデルに存在する局所性誘導バイアスに依存することなく、画像の個々のピクセルを直接操作できることが示されました。

Pixel Transformers (PiTs) Challenge the Need for Locality Bias in Vision Models

メタ AI とアムステルダム大学の研究者は、一般的なニューラルネットワークアーキテクチャであるトランスフォーマーが、最新のコンピュータービジョンモデルに存在する局所性誘導バイアスに依存せずに、画像の個々のピクセルに対して直接動作できることを実証しました。「Transformers on Individual Pixels」と題された研究は、局所性 (遠くのピクセルよりも隣接するピクセルの関連性が高いという概念) が視覚タスクの基本的な要件であるという長年の信念に疑問を投げかけています。

伝統的に、畳み込みニューラルネットワークのようなコンピュータービジョンアーキテクチャは、 (ConvNets) とビジョントランスフォーマー (ViTs) は、隣接するピクセルの関連性がより高いと仮定して、畳み込みカーネル、プーリング操作、パッチ化などの技術を通じて局所性バイアスを組み込んでいます

対照的に、研究者らはピクセルトランスフォーマー (PiT) を導入しました。ピクセルを個々のトークンとして扱い、画像の 2D グリッド構造に関するあらゆる仮定を取り除きます。驚くべきことに、PiT はさまざまなタスクにわたって高いパフォーマンスの結果を達成しました

たとえば、PiT が VQGAN の潜在トークン空間を使用する画像生成タスクに適用された場合、Fréchet Inception Distance (FID) や Inception などの品質指標で局所性に偏った対応するものよりも優れたパフォーマンスを示しました。スコア (IS)。

Perceiver IO Transformer のラインで動作する PiT は、シーケンスが長いため計算コストが高くなる可能性がありますが、ビジョンモデルにおける局所性バイアスの必要性に課題を抱えています。長いシーケンス長の処理が進歩するにつれて、PiT はより実用的になる可能性があります。

この研究は最終的に、ニューラルアーキテクチャにおける誘導バイアスを削減することの潜在的な利点を強調しており、これにより、多様な視覚タスクやデータモダリティのための、より多用途で有能なシステムが実現する可能性があります。

ニュースソース：

https://www.kdj.com/cryptocurrency-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html

以上がピクセルトランスフォーマー (PiT) がビジョンモデルにおける局所性バイアスのニーズに挑むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ピクセル トランスフォーマー (PiT) がビジョン モデルにおける局所性バイアスのニーズに挑む

ピクセルトランスフォーマー (PiT) がビジョンモデルにおける局所性バイアスのニーズに挑む