ポストSoraの時代、CV担当者はどのようにモデルを選ぶのでしょうか?畳み込みまたは ViT、教師あり学習または CLIP パラダイム
ImageNet の精度は、かつてはモデルのパフォーマンスを評価するための主な指標でしたが、今日のコンピューティング ビジョンの分野では、この指標は徐々に不完全であるように見えてきました。
コンピュータ ビジョン モデルがより複雑になるにつれて、ConvNet から Vision Transformers まで、利用可能なモデルの種類が大幅に増加しました。トレーニング方法も自己教師あり学習や CLIP のような画像とテキストのペアのトレーニングに進化しており、もはや ImageNet での教師ありトレーニングに限定されません。
ImageNet の精度は重要な指標ですが、モデルのパフォーマンスを完全に評価するには十分ではありません。アーキテクチャ、トレーニング方法、データセットが異なると、タスクごとにモデルのパフォーマンスが異なる場合があるため、ImageNet のみに依存してモデルを判断することには限界がある可能性があります。モデルが ImageNet データセットにオーバーフィットし、精度が飽和状態に達すると、他のタスクに対するモデルの汎化能力が見落とされる可能性があります。したがって、モデルのパフォーマンスと適用性を評価するには、複数の要素を考慮する必要があります。
CLIP の ImageNet の精度は ResNet と似ていますが、そのビジュアル エンコーダはより堅牢で転送可能です。このため、研究者は、ImageNet メトリクスだけを考慮した場合には明らかではなかった CLIP の独自の利点を調査するようになりました。これは、有用なモデルを発見するために他のプロパティを分析することの重要性を強調しています。
さらに、従来のベンチマークでは、さまざまなカメラ角度、照明条件、オクルージョンなど、現実世界の視覚的な課題に対処するモデルの能力を完全に評価することはできません。 ImageNet などのデータセットでトレーニングされたモデルは、現実世界の条件やシナリオがより多様であるため、実際のアプリケーションでそのパフォーマンスを活用することが難しいことがよくあります。
これらの質問は、現場の実務者に新たな混乱をもたらしました: ビジュアル モデルを測定するにはどうすればよいですか?そして、ニーズに合ったビジュアルモデルを選択するにはどうすればよいでしょうか?
最近の論文では、MBZUAI と Meta の研究者がこの問題について詳細な議論を行いました。
- 論文タイトル: ConvNet vs Transformer、Supervised vs CLIP: Beyond ImageNet Accuracy
- #論文リンク: https://arxiv.org/pdf/2311.09215.pdf
選択したモデルは、各トレーニング パラダイムの下で ImageNet-1K 上で同様の数のパラメーターとほぼ同じ精度を備えているため、公平な比較が保証されます。研究者らは、追加のトレーニングや微調整を行わずにモデルの特性に焦点を当て、予測誤差の種類、汎化能力、学習された表現の不変性、キャリブレーションなどの一連のモデル特性を深く調査し、直接的な期待を高めました。事前訓練されたモデルを使用する実践者による。
さまざまなモデルが独自の方法でそれぞれの利点を示しており、これらの利点は単一の指標では捉えることができないことがわかります。研究者らは、特定のコンテキストでモデルを正確に選択し、ImageNet に依存しない新しいベンチマークを作成するには、より詳細な評価指標が必要であると強調しています。
これらの観察に基づいて、Meta AI の主任科学者 Yann LeCun は研究をリツイートし、「いいね」をしました:
モデルの選択
教師ありモデルとして、研究者は ViT-Base/16 と同じアーキテクチャを持つ ViT の事前トレーニング済み DeiT3-Base/16 を使用しました。ただし、トレーニング メソッドが改善され、さらに ConvNeXt-Base が使用されます。 CLIP モデルの場合、研究者らは OpenCLIP の ViT-Base/16 および ConvNeXt-Base のビジュアル エンコーダを使用しました。
これらのモデルのパフォーマンスは、元の OpenAI モデルとは若干異なることに注意してください。すべてのモデルのチェックポイントは、GitHub プロジェクトのホームページで見つけることができます。モデルの詳細な比較については、表 1 を参照してください:
#研究者は、モデル選択プロセスについて詳細に説明しました:
1. 研究者は事前トレーニングされたモデルを使用するため、トレーニング中に表示されるデータ サンプルの量と質を制御できません。
2. ConvNet と Transformer を分析するために、これまでの多くの研究で ResNet と ViT が比較されてきました。 ViT は通常、より高度なレシピでトレーニングされ、より高い ImageNet 精度を達成するため、この比較は一般に ConvNet と対照的です。 ViT には、LayerNorm など、何年も前に ResNet が発明されたときに組み込まれていなかったいくつかのアーキテクチャ設計要素もあります。したがって、よりバランスの取れた評価を行うために、ViT と ConvNeXt を比較しました。ConvNeXt は、Transformers と同等のパフォーマンスを発揮し、多くの設計を共有する ConvNet の最新の代表製品です。
3. トレーニング モードに関して、研究者らは教師ありモードと CLIP モードを比較しました。教師ありモデルは、コンピューター ビジョンにおける最先端のパフォーマンスを維持しています。一方、CLIP モデルは一般化と伝達性の点で優れたパフォーマンスを発揮し、視覚的表現と言語的表現を結び付けるためのプロパティを提供します。
4. 自己教師ありモデルは予備テストで教師ありモデルと同様の動作を示したため、結果には含めませんでした。これは、最終的に ImageNet-1K 上で微調整された監視が行われることになり、多くの機能の研究に影響を与えるという事実によるものと考えられます。
次に、研究者がさまざまな属性をどのように分析したかを見てみましょう。
#分析モデルエラー# #ImageNet-X は、16 の変動要因に関する詳細な人間によるアノテーションを備えた ImageNet-1K を拡張したデータセットで、画像分類におけるモデルエラーの詳細な分析を可能にします。エラー率メトリクス (低いほど良い) を使用して、全体の精度と比較した特定の要素におけるモデルのパフォーマンスを定量化し、モデルエラーの微妙な分析を可能にします。 ImageNet-X の結果:
#1. CLIP モデルは、教師ありモデルと比較して、ImageNet の精度におけるエラーが少なくなります。
2. すべてのモデルは主にオクルージョンなどの複雑な要因の影響を受けます。
3. テクスチャはすべてのモデルの中で最も難しい要素です。
形状/テクスチャ偏差は、モデル 高レベルの形状キューではなく、壊れやすいテクスチャのショートカットに依存するかどうか。この偏りは、形状とテクスチャのさまざまなカテゴリの手がかりが矛盾する画像を組み合わせることによって研究できます。このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。研究者らは、キュー競合データセットの形状とテクスチャのバイアスを評価し、CLIP モデルのテクスチャ バイアスが教師ありモデルのテクスチャ バイアスよりも小さい一方、ViT モデルの形状バイアスが ConvNet の形状バイアスよりも高いことを発見しました。
定量化可能なモデルの予測信頼度をキャリブレーションし、実際の精度の一貫性は、予想される校正誤差 (ECE) などの指標や、信頼性プロットや信頼性ヒストグラムなどの視覚化ツールを通じて評価できます。キャリブレーションは ImageNet-1K および ImageNet-R で評価され、予測が 15 レベルに分類されました。実験中、研究者らは次の点を観察しました:
#1. CLIP モデルは自信過剰ですが、教師ありモデルはわずかに自信がありません。
2. 教師あり ConvNeXt は、教師あり ViT よりも優れたキャリブレーションを実行します。
堅牢性と移行性
モデルの堅牢性と移行性は、データ分布やデータの変化に適応するために重要です。新しいミッションは重要です。研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価し、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等でしたが、ImageNet-R と ImageNet-Sketch を除いて、教師ありモデルが一般的に堅牢性の点で CLIP を上回っていることがわかりました。転送可能性の点では、教師あり ConvNeXt は ViT を上回り、19 個のデータセットを使用した VTAB ベンチマークで評価した場合、CLIP モデルのパフォーマンスとほぼ同等です。
#合成データ
PUG-ImageNet などの合成データ セットは、カメラアングルやテクスチャなどの要素を正確に制御することは有望な研究経路であるため、研究者らは合成データに対するモデルのパフォーマンスを分析しました。 PUG-ImageNet には、ポーズや照明などの要素が体系的に変化するフォトリアリスティックな ImageNet 画像が含まれており、パフォーマンスは絶対的なトップ 1 の精度として測定されます。研究者らは、PUG-ImageNet のさまざまな要素に関する結果を提供し、ConvNeXt がほぼすべての要素で ViT よりも優れていることを発見しました。これは、ConvNeXt が合成データでは ViT よりも優れていることを示していますが、CLIP モデルの精度は教師ありモデルよりも低いため、CLIP モデルのギャップは小さくなっており、これは元の ImageNet の精度が低いことに関連している可能性があります。
#変換不変性
変換不変性とは、モデルの能力を指します。入力変換の影響を受けない一貫した表現を生成し、スケーリングや移動などのセマンティクスを維持します。このプロパティにより、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できます。使用される方法には、スケール不変性のための画像のサイズ変更、位置不変性のためのクロップの移動、補間された位置埋め込みを使用した ViT モデルの解像度の調整などが含まれます。トリミング スケール/位置と画像解像度を変更することで、ImageNet-1K 上のスケール、動き、解像度の不変性を評価します。 ConvNext は教師ありトレーニングにおいて ViT を上回ります。全体として、モデルは動きよりもスケール/解像度変換に対してより堅牢です。スケーリング、変位、解像度に対する高い堅牢性が必要なアプリケーションの場合、教師あり ConvNeXt が最良の選択である可能性があることが結果から示唆されています。
#概要
全体的に、各モデルには独自の利点があります。これは、標準のパフォーマンス指標では特定のタスクの重要なニュアンスが無視される可能性があるため、モデルの選択はターゲットのユースケースに依存する必要があることを示唆しています。さらに、既存のベンチマークの多くは ImageNet から派生しているため、評価に偏りもあります。より現実世界を代表する環境でモデルを評価するには、さまざまなデータ分布を使用した新しいベンチマークを開発することが重要です。
#この記事の結論の要約は次のとおりです:
#ConvNet と Transformer
1. 教師あり ConvNeXt は、多くのベンチマークで教師あり ViT より優れたパフォーマンスを示します。より適切に調整され、データ変換に対してより不変であり、より優れた転送性と堅牢性を示します。
2. ConvNeXt は、合成データに対して ViT よりも優れたパフォーマンスを発揮します。
3. ViT は形状偏差が大きくなります。
#監視と CLIP
#1. CLIP モデルは転送性の点で優れていますが、監視が必要です。 ConvNeXt は、このタスクで競争力のあるパフォーマンスを発揮しました。これは教師ありモデルの可能性を示しています。
2. 教師ありモデルは、堅牢性ベンチマークでより優れたパフォーマンスを示しますが、これはおそらく、これらのモデルがすべて ImageNet のバリアントであるためです。3. ImageNet の精度と比較して、CLIP モデルは形状の偏りが大きく、分類エラーが少なくなります。
以上がポストSoraの時代、CV担当者はどのようにモデルを選ぶのでしょうか?畳み込みまたは ViT、教師あり学習または CLIP パラダイムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
