3つの概念を覆す! Google の最新調査: パフォーマンスの低いモデルで「類似性」を計算する方が正確ですか?
計算画像間の類似性は、コンピューター ビジョンにおける未解決の問題です。
画像生成が世界中で普及している今日、「類似性」をどのように定義するかも、生成された画像の信頼性を評価する際の重要な問題です。画像。
画像の類似性を計算するには、ピクセルでの差を測定するなどの比較的直接的な方法 (FSIM、SSIM など) がいくつかありますが、この方法では差分が得られます。類似点は、人間の目で認識される違いとは程遠いものです。
ディープラーニングの台頭後、一部の研究者は、AlexNet、VGG、SqueezeNet などのいくつかのニューラル ネットワーク分類器によって取得される中間表現 が、 ImageNet でのトレーニングは、知覚的な類似性の計算として使用できます。
言い換えれば、埋め込みはピクセルよりも複数の画像の類似性に対する人々の認識に近いということです。
は単なる仮説です。 最近 Google は、ImageNet 分類器が知覚的類似性をより適切に評価できるかどうかを特に研究した論文を発表しました。
# 論文リンク: https://openreview.net/pdf?id=qrGKGZZvH0
2018 年にリリースされた BAPPS データセット
に関する研究が行われてきましたが、知覚スコアは、第一世代の ImageNet 分類器で研究されました。精度と知覚スコアの相関関係や各種ハイパーパラメータの影響など、最新のViTモデルの研究結果が論文に追加されています。 精度が高くなるほど、知覚される類似性は悪くなりますか?
誰もが知っているように、ImageNet でのトレーニングを通じて学習した機能は、多くの下流タスクに適切に転送でき、下流タスクのパフォーマンスを向上させることができます。これにより、ImageNet での事前トレーニングも標準操作になります。さらに、ImageNet でより高い精度を達成することは、破損した画像に対する堅牢性、配布外のデータや転移学習に対する一般化パフォーマンスなど、さまざまな下流タスクのパフォーマンスの向上を意味することがよくあります。より小さなカテゴリデータセットに。
しかし、知覚的な類似性の計算に関しては、すべてが逆転しているように見えます。
ImageNet で高い精度を達成するモデルの知覚スコアは低くなりますが、「中程度」のスコアを持つモデルは知覚類似性タスクで最高のパフォーマンスを発揮します。
ImageNet 64 × 64 検証精度 (x 軸)、64 × 64 BAPPS データセットの知覚スコア (y 軸)、各青い点は ImageNet 分類子を表します
優れた ImageNet 分類子は、ある程度まではより良い知覚スコアを達成しますが、特定のしきい値を超えると精度が向上することがわかります。分類器の精度は中程度 (20.0 ~ 40.0) で、最高の知覚スコアが得られます。
この記事では、幅、深さ、トレーニング ステップ数、重みの減衰、ラベルの平滑化、ドロップアウトなどの知覚スコアに対するニューラル ネットワークのハイパーパラメーターの影響についても研究しています。 各ハイパーパラメータには最適な精度があり、精度を上げると知覚スコアが向上しますが、この最適値は非常に低く、ハイパーパラメータ スイープの非常に早い段階で到達します。
これに加えて、分類器の精度が向上すると、知覚スコアが悪化します。
例として、この記事では、ResNets のトレーニング ステップと ViTs の幅という 2 つのハイパーパラメーターに関連した知覚スコアの変化を示しています。
ResNets を早期に停止すると、6、50、200 のさまざまな深度設定で最高の知覚スコアが達成されました
ResNet-50 と ResNet の知覚スコア-200 はトレーニングの最初の数エポックで最高値に達しますが、ピークを過ぎると、よりパフォーマンスの高い分類器の知覚スコア値がより急激に低下します。
結果は、ResNets のトレーニングと学習率の調整により、ステップが増加するにつれてモデルの精度が向上する可能性があることを示しています。同様に、ピークの後、モデルは、この徐々に増加する精度と一致する、知覚的類似性スコアの漸進的な減少も示します。
ViT は、入力画像に適用される Transformer ブロックのセットで構成されます。ViT モデルの幅は、単一の Transformer ブロックの出力ニューロンの数です。幅を増やすと効果的に改善できます。モデルの精度。
研究者らは、2 つのモデル B/8 (つまり、Base-ViT モデル、パッチ サイズは 4) と L/4 (つまり、Large -ViT モデル) を取得し、精度と知覚スコアを評価しました。
結果は、早期停止 ResNet で観察された結果と同様であり、精度が低く狭い ViT のパフォーマンスがデフォルトの幅よりも優れています。
ただし、ViT-B/8 と ViT-L/4 の最適な幅は、それぞれデフォルトの幅の 6% と 12% です。幅、深さ、トレーニング ステップ数、重み減衰、ラベル スムージング、ResNet と ViT にわたるドロップアウトなど、他のハイパーパラメーターに関する実験のより詳細なリストも提供されます。
したがって、知覚される類似性を改善したい場合、戦略は単純で、精度を適切に下げるだけです。
ImageNet モデルをスケールダウンすることで知覚スコアを改善します。表内の値は、スケーリングによって得られる値を表します。デフォルトのハイパーパラメータを使用したモデルでの改善 固定ハイパーパラメータを使用したモデルから得られた改善点
上記の結論に基づいて、この論文では、アーキテクチャの知覚スコアを改善するための簡単な戦略を提案しています。最適な知覚スコアが達成されるまで、モデルの精度を低下させます。
実験結果では、各ハイパーパラメータで各モデルをスケールダウンすることによって得られた知覚スコアの向上も確認できます。早期停止は、ViT-L/4 を除くすべてのアーキテクチャで最高のスコア向上をもたらし、時間のかかるグリッド検索を必要としない最も効果的な戦略です。
グローバル知覚関数
以前の研究では、知覚類似性関数は、画像空間次元にわたるユークリッド距離を使用して計算されました。
このアプローチはピクセル間の直接の対応を前提としていますが、この対応は湾曲した画像、平行移動した画像、または回転した画像には適用できない場合があります。
この記事では、研究者らは画像のグローバル表現に依存する 2 つの知覚関数、つまり 2 つの画像間のスタイルの類似性を捕捉するニューラル スタイル転送、スタイル損失関数と正規化関数を採用しました。平均プーリング距離関数。
スタイル損失関数は 2 つの画像間のチャネル間相互相関行列を比較し、平均プーリング関数は空間的に平均されたグローバル表現を比較します。
グローバル知覚関数は、デフォルトのハイパーパラメータを使用したネットワーク トレーニングとトレーニング エポックの関数としての ResNet-200 の両方の知覚スコアを一貫して向上させます。
また、精度と知覚評価の関係を説明するためにいくつかの仮説を調査し、追加の洞察を導き出します。
たとえば、一般的に使用されるスキップ接続を使用しないモデルの精度も知覚スコアに反比例し、出力に近いレイヤーは、出力に近いレイヤーと比較して平均して知覚スコアが低くなります。入力を行ってください。
歪み感度、ImageNet カテゴリの粒度、空間周波数感度についてもさらに調査しました。
つまり、この論文は、分類精度を向上させるとより良い知覚メトリクスが生成されるかどうかという問題を調査します。さまざまなハイパーパラメータの下で、ResNet と ViT の精度と知覚スコアの関係を研究し、知覚スコアが次のような関係があることを発見しました。精度は逆U字型の関係を示しており、精度と知覚スコアはある程度の相関関係があり、逆U字型の関係を示しています。
最後に、この記事では、スキップ接続、グローバル類似度関数、歪み感度、階層的知覚スコア、空間周波数感度、ImageNet カテゴリ粒度など、精度と知覚スコアの関係について詳しく説明します。
ImageNet の精度と知覚的類似性の間のトレードオフの正確な説明は依然として謎のままですが、この論文は前進する第一歩です。
以上が3つの概念を覆す! Google の最新調査: パフォーマンスの低いモデルで「類似性」を計算する方が正確ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









General Matrix Multiplication (GEMM) は、多くのアプリケーションやアルゴリズムの重要な部分であり、コンピューター ハードウェアのパフォーマンスを評価するための重要な指標の 1 つでもあります。 GEMM の実装に関する徹底的な調査と最適化は、ハイ パフォーマンス コンピューティングとソフトウェア システムとハードウェア システムの関係をより深く理解するのに役立ちます。コンピューター サイエンスでは、GEMM を効果的に最適化すると、計算速度が向上し、リソースが節約されます。これは、コンピューター システムの全体的なパフォーマンスを向上させるために非常に重要です。 GEMM の動作原理と最適化方法を深く理解することは、最新のコンピューティング ハードウェアの可能性をより有効に活用し、さまざまな複雑なコンピューティング タスクに対してより効率的なソリューションを提供するのに役立ちます。 GEMMのパフォーマンスを最適化することで

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
