ダウンストリームトレーニングなしで、Tip-Adapter は CLIP 画像分類の精度を大幅に向上させます
- # 論文リンク: https://arxiv.org/pdf/2207.09519.pdf
- コードリンク: https://github.com/gaopengcuhk/Tip-Adapter
Contrastive Image Language Pre-training Model (CLIP) は最近、強力な視覚領域転送機能を実証し、新しい下流データセットに対してゼロショット画像認識を実行できることを実証しました。 CLIP の移行パフォーマンスをさらに向上させるために、既存の方法では、CoOp や CLIP-Adapter などの少数ショット設定を使用します。これにより、ダウンストリーム データ セットに少量のトレーニング データが提供され、CLIP がさまざまな視覚的シナリオに対して適切な意思決定を行えるようになります。 。 調整。ただし、この追加のトレーニング ステップはかなりの時間とスペースのリソース オーバーヘッドをもたらし、CLIP 本来の迅速な知識伝達機能にある程度の影響を与えます。したがって、追加の下流トレーニングを必要とせず、CLIP の精度を大幅に向上できる数ショット画像分類法 Tip-Adapter を提案します。これに基づいて、当社はわずかな微調整だけで最先端のパフォーマンスを達成できるソリューション、Tip-Adapter-F を提案し、効率とパフォーマンスの最適な妥協点を達成しました。以下の表 1 に示すように、Tip-Adapter はトレーニング時間を必要としません。つまり、ImageNet データ セットにおける CLIP の精度を 1.7% (精度) 向上させることができますが、Tip-Adapter-F では 10 分の 1 しか必要としません。以前のソリューションのトレーニング時間 (エポック数、時間) を考慮すると、既存の最高の分類パフォーマンスを達成できます。
#表 1: ImageNet データセット上のさまざまなスキームの 16 ショット画像分類精度とトレーニング時間の比較
1.Tip-AdapterTip-Adapter の全体的なネットワーク構造を以下の図 1 に示します。与えられた数ショットのトレーニング データセットとラベルに対して、 use CLIP は、非トレーニング ソリューションを使用して、下流のトレーニング データからの分類知識を保存するキャッシュ モデル (キャッシュ モデル) を構築します。テスト中に、Tip-Adapter は、キャッシュ モデルの予測と元のモデルの予測の線形合計を実行します。 CLIP 、より強力な最終分類結果を取得します。
詳細には、CLIP 事前トレーニング済みビジュアル エンコーダー (Visual Encoder) を使用して、数ショット トレーニング セット内のすべての画像の特徴をキャッシュ モデルのキーとして抽出します。対応する画像タグをキャッシュモデルの値としてワンホットエンコーディング形式に変換します。この Key-Value キャッシュ モデルの構築方法では、事前トレーニング済みの Visual Encoder を使用するため、トレーニングのオーバーヘッドは必要ありません。また、数ショットのトレーニング セットには各カテゴリの少数の画像 (1 ~ 16 ショット) しか含まれていないことを考慮すると、キャッシュ モデルは、追加のグラフィック メモリ オーバーヘッドもほとんど消費しません。表 1 の GPU メモリ インジケータを参照してください。
テスト イメージの場合、最初に CLIP のビジュアル エンコーダーを使用してその特徴を取得し、次にその特徴をダウンストリームの少数ショット データのナレッジ取得のためのキャッシュ モデルへのクエリとして扱います。 Key も CLIP の Visual Encoder によって抽出されるため、テスト画像特徴量 Query と同じ起源を持ちます。それらの間のコサイン類似度を直接計算して、Key-Query 隣接行列を取得できます。この行列は、それぞれの重みに対応するとみなすことができます。貴ぶ。したがって、値の加重合計を計算して、キャッシュ モデルを取得することで得られたこのテスト画像の分類予測を取得できます。さらに、テスト画像の特徴を CLIP の Textual Encoder のテキスト特徴と照合することで、CLIP のゼロショット予測を取得することもできます。 2 つの合計を線形に重み付けすることで、最終的な分類予測が得られます。これには、CLIP によって事前トレーニングされた画像言語の対照的な知識と、新しい下流データセットの少数ショットの知識の両方が含まれているため、より正確な予測を実現できます。強力な画像分類精度。
Tip-Adapter のネットワーク構造に基づいて、キャッシュ モデルのキー部分を学習パラメータにさらに変更できます。つまり、トレーニングを通じて更新できます。このソリューションは次のとおりです。チップアダプター F.表 1 に示すように、すでに構築されているキャッシュ モデルの助けにより、Tip-Adapter-F は既存の CLIP-Adapter のトレーニング ラウンドと時間の 10 分の 1 だけで高いパフォーマンスを達成できます。
#図 1: チップ アダプターおよびチップ アダプター F
# のネットワーク フローチャート # #2.Tip-Adapter と既存のソリューションの違いと関連性
CLIP-Adapter を比較すると、図 2 に示すように、Tip-Adapter にはキーと値が格納されます。これらはそれぞれ、CLIP-Adapter のアダプター構造の 2 つの線形層に対応します。ただし、前者は構築にトレーニングを必要としませんが、後者はランダムに初期化され、最適なパラメーターを学習するためにトレーニングが必要になります。
図 3 に示すように、キャッシュ モデルを構築するための他の既存のソリューションと比較すると、Tip-Adapter のキャッシュ モデルはマルチモーダルな視覚言語キャッシュとみなすことができます。 CLIP のテキスト エンコーダーによって出力された特徴はテキストの Key-Value と見なすことができるため、これは画像の特徴をクエリとしてテストし、それぞれビジュアル キャッシュとテキスト キャッシュ内の知識を取得するのと同等です。 Visual Cache、Tip-Adapter はマルチモーダルな知識を利用して、より強力な認識パフォーマンスを得ることができます。
#図 3: キャッシュ モデルを構築するための他のソリューションと比較したチップアダプター
三つ。実験結果1. ImageNet での分類精度
図 4 と表 2 は、Tip-Adapter、Tip-Adapter-F、および 1 と 2、4、8、の既存のソリューションを比較しています。表 3 は、16 ショットの ImageNet データセットで異なる CLIP を使用した Visual Encoder の精度を比較しています。どちらのソリューションも、リソースのオーバーヘッドがほとんどなく、優れたパフォーマンスを達成していることがわかります。
#図 4 と表 2: ImageNet データセットのさまざまなメソッドの 1 ~ 16ショット画像の分類精度の比較
2 を使用した Visual Encoder の分類精度。別の 10 個の画像分類データ セット図 5 に示すように、精度の比較結果が得られます。さらに 10 個の画像分類データ セット、つまり StandfordCars、UCF101、Caltech101、Fflowers102、SUN397、DTD、EuroSAT、FGVCAircraft、OxfordPets、Food101 が取得されます。図に示すように、当社のチップアダプター F はすべて最高の認識精度を達成しました。
#図 5: 別の 10 個のデータセットに対するさまざまなメソッドの 1 ~ 16 ショットの画像分類精度の比較
3. ドメイン汎化能力の評価
また、ドメイン汎化における Tip-Adapter と Tip-Adapter-F のパフォーマンスもテストしました。表 6 に示すように、どちらのスキームも強力な堅牢性と機能転送機能を示しています。 ##################四。結論
この論文では、下流の少数ショット画像分類に CLIP を使用するためのトレーニング不要のソリューションである Tip-Adapter を提案します。 Tip-Adapterは、テスト画像Queryの知識検索データベースとしてKey-Valueキャッシュモデルを構築し、キャッシュモデルの予測とCLIPのゼロショット予測を融合することでより強力な認識性能を獲得します。私たちは、Tip-Adapter が事前トレーニング済みモデルの効率的な移行に関するさらなるフォローアップ作業のきっかけとなることを願っています。
以上がダウンストリームトレーニングなしで、Tip-Adapter は CLIP 画像分類の精度を大幅に向上させますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

春節に合わせて、Tongyi Qianwen Model (Qwen) のバージョン 1.5 がオンラインになりました。今朝、新しいバージョンのニュースが AI コミュニティの注目を集めました。大型モデルの新バージョンには、0.5B、1.8B、4B、7B、14B、72Bの6つのモデルサイズが含まれています。その中でも最強バージョンの性能はGPT3.5やMistral-Mediumを上回ります。このバージョンには Base モデルと Chat モデルが含まれており、多言語サポートを提供します。アリババの同義前文チームは、関連技術が同義前文公式ウェブサイトと同義前文アプリでもリリースされたと述べた。さらに、本日の Qwen 1.5 リリースには、32K のコンテキスト長のサポート、Base+Chat モデルのチェックポイントのオープン、および 32K のコンテキスト長のサポートなどのハイライトもあります。

現在のディープ エッジ検出ネットワークは通常、エンコーダ/デコーダ アーキテクチャを採用しています。このアーキテクチャには、マルチレベルの特徴をより適切に抽出するためのアップ サンプリング モジュールとダウン サンプリング モジュールが含まれています。ただし、この構造では、ネットワークが正確かつ詳細なエッジ検出結果を出力することが制限されます。この問題に対して、AAAI2024 に関する論文は新しい解決策を提供しています。論文のタイトル: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection 著者: Ye Yunfan (国立国防技術大学)、Xu Kai (国立国防技術大学)、Huang Yuxing (国立国防技術大学)、Yi Renjiao (国立国防技術大学)、Cai Zhiping (防衛工科大学) 論文リンク:https://ar

大規模言語モデル (LLM) には通常、数十億のパラメーターがあり、数兆のトークンでトレーニングされます。ただし、このようなモデルのトレーニングとデプロイには非常にコストがかかります。計算要件を軽減するために、さまざまなモデル圧縮技術がよく使用されます。これらのモデル圧縮技術は一般に、蒸留、テンソル分解 (低ランク因数分解を含む)、枝刈り、および量子化の 4 つのカテゴリに分類できます。プルーニング手法は以前から存在していましたが、多くはパフォーマンスを維持するためにプルーニング後にリカバリ微調整 (RFT) を必要とするため、プロセス全体のコストが高くつき、拡張が困難になります。チューリッヒ工科大学とマイクロソフトの研究者は、この問題に対する SliceGPT と呼ばれる解決策を提案しました。この方法の中心となるアイデアは、重み行列の行と列を削除することでネットワークの埋め込みを減らすことです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
