ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました-AI-php.cn

一般的に、コンピュータービジョン (CV) モデルは、さまざまな環境でより優れたパフォーマンスを発揮します。タスク sota のパフォーマンスは特定の分野のトレーニングデータに基づいており、他の分野やタスクに一般化することはできません。その結果、視覚的な世界の一般的な属性の理解が限定的になります。

CLIP は、テキストを埋め込みに変換する Transformer エンコーダーと、画像をエンコードする Visual Transformer (ViT) の 2 つのモデルで構成されます。

ゼロショット分類に CLIP を使用する

Python 実装

ホームページ

テクノロジー周辺機器

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

王林

Apr 11, 2023 pm 11:10 PM

モデル

ImageNet は長い間その歴史的使命を終えてきましたが、依然としてコンピュータービジョンの分野における重要なデータセットです。

2016 年、ImageNet でトレーニングされた分類モデルの sota 精度率はまだ 80% 未満でしたが、今日に至るまで、大規模な事前トレーニングされたモデルに基づいたゼロショット一般化が行われています。それだけで 80.1% の精度を達成できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

Laion は最近、オープンソースの OpenCLIP フレームワーク # を使用して、新しい ViT-G/14 CLIP## をトレーニングしましたモデル、ImageNet データセットでは、元の OpenAI CLIP の精度はわずか 75.4% ですが、OpenCLIP は 80.1% のゼロショット精度を達成し、MS COCO では 74.9% のゼロショットを達成します。画像取得 (Recall@5)。これも現在最も強力なオープンソース CLIP モデルです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

LAION は、Large-scale Artificial Intelligence Open Network の略で、世界中からメンバーが集まる非営利団体です。大規模な人工知能の一般公開: 機械学習モデル、データセット、および関連コードをスケールします。彼らは、真のオープン AI、100% 非営利、100% 無料であると主張しています。

興味のある友人は、手元の CLIP モデルを更新できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

モデルアドレス: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k

各データセットにおける OpenCLIP モデルの具体的なパフォーマンスを以下の表に示します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました #ゼロショット機能

一般的に、コンピュータービジョン (CV) モデルは、さまざまな環境でより優れたパフォーマンスを発揮します。タスク sota のパフォーマンスは特定の分野のトレーニングデータに基づいており、他の分野やタスクに一般化することはできません。その結果、視覚的な世界の一般的な属性の理解が限定的になります。

#汎化問題は、大量のトレーニングデータが不足している分野では特に重要です。

理想的には、CV モデルは、トレーニングセット内の特定のラベルに焦点を当てすぎるのではなく、画像の意味論的な内容を学習する必要があります。たとえば、犬の画像の場合、モデルは画像の中に犬がいることを理解でき、さらに背景に木があること、時間は昼間であること、犬が芝生の上にいることなども理解できる必要があります。。

しかし、「分類トレーニング」によって得られた現在の結果は、期待とはまったく逆です。モデルは、犬の内部表現を同じ「犬ベクトル空間」に押し込み、猫を同じ「犬ベクトル空間」に押し込むことを学習します。同じ「猫ベクトル空間」では、すべての質問に対する答えは 2 値、つまり、画像をカテゴリラベルと位置合わせできるかどうかです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました新しいタスクの分類モデルを再トレーニングすることも解決策ですが、トレーニング自体には多大な時間と資金が必要です。分類データセットを収集し、モデルをトレーニングするための投資。

幸いなことに、OpenAI の CLIP モデルは非常に柔軟な分類モデルであり、通常は再トレーニングすることなく新しい分類タスクに使用できます。

CLIP がゼロショットできる理由 Contrastive Language-Image Pretraining (CLIP、Contrastive Language-Image Pretraining) は、2021 年に OpenAI によってリリースされたモデルで、主に Transformer に基づいています。

CLIP は、テキストを埋め込みに変換する Transformer エンコーダーと、画像をエンコードする Visual Transformer (ViT) の 2 つのモデルで構成されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP 内のテキストモデルと画像モデルは両方とも、ベクトル空間で同様のテキストと画像を配置するために事前トレーニング中に最適化されます。トレーニングプロセス中、データ内の画像とテキストのペアはベクトル空間内で互いに近づけられますが、ペアに属さない画像ベクトルとテキストベクトルは分離されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP と一般的な分類モデルにはいくつかの違いがあります。

まず、OpenAI はインターネットからクロールされたデータを使用します。 4 億のテキストと画像のペアを含む非常に大規模なデータセットでのトレーニングは次のとおりです:

1. CLIP トレーニングには「画像とテキストのペア」のみが必要で、特定のクラスラベルは必要ありません。このタイプのデータは次のとおりです。今日のソーシャルメディア中心のオンライン世界にはたくさんあります。

2. 大規模なデータセットは、画像内の共通のテキスト概念を理解する CLIP の能力を意味します。

3. テキスト記述子には、カテゴリの特徴だけでなく、画像内のさまざまな特徴が含まれることが多く、これは、より包括的な画像とテキストの表現を確立できることを意味します。

上記の利点は、CLIP がゼロショットを確立する能力の重要な要素でもあります。論文の著者は、ResNet-101 モデルと ImageNet で特別にトレーニングされた CLIP モデルも比較し、それを派生した他のデータに適用しました。 ImageNet.Set からのパフォーマンスの比較を次の図に示します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ResNet-101 は ImageNet でトレーニングされていますが、同様のデータセットでのパフォーマンスは、同じタスクでの CLIP パフォーマンスよりも優れていることがわかります。ずっと悪いです。

ResNet モデルを他の分野に適用する場合、一般的な方法は「線形プローブ」です。つまり、ResNet モデルの最後の数層で学習された特性が線形分類器に入力され、その後、精密分類器に入力されます。特定のデータセット向けに調整されています。

CLIP 論文では、線形検出 ResNet-50 とゼロショット CLIP が比較されています。結論として、同じシナリオでは、複数のタスクにおいてゼロショット CLIP の方が ResNet よりも優れたパフォーマンスを発揮します。-50 での線形検出。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ただし、より多くのトレーニングサンプルが与えられた場合、Zero-shot は線形検出を上回るパフォーマンスを発揮しないことに注意してください。

ゼロショット分類に CLIP を使用する

上記の説明からわかるように、画像およびテキストエンコーダーは、入力画像とテキスト入力をマップする 512 次元のベクトルを作成できます。同じベクトル空間。

CLIP をゼロショット分類に使用するということは、カテゴリ情報をテキスト文に入れることを意味します。

たとえば、画像を入力し、そのカテゴリが車、鳥、猫のいずれであるかを判断したい場合、カテゴリを表す 3 つのテキスト文字列を作成できます。

T1 は車を表します。車の写真

T2 は鳥を表します: 鳥の写真

T3 は猫を表します: 猫の写真

カテゴリの説明をテキストに入力しますエンコーダを使用すると、カテゴリを表現できるベクトルが得られます。

入力が猫の写真であると仮定し、ViT モデルを使用してエンコードし、画像ベクトルを取得した後、カテゴリベクトルとのコサイン距離を類似度として計算します。が最高であることは、画像のカテゴリが猫に属していることを意味します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

ご覧のとおり、カテゴリラベルは単純な単語ではなく、テンプレート「{ラベルの写真」に基づいています。の形式を文に書き換えると、学習制限なしでカテゴリ予測に拡張できます。

実験では、このプロンプトテンプレートを使用すると、ImageNet の分類精度が 1.3 パーセント向上しました。ただし、プロンプトテンプレートによって常にパフォーマンスが向上するとは限りません。実際の使用では、さまざまなデータセットに基づいてテストする必要があります。

Python 実装

CLIP を使用してゼロショット分類を行うことも非常に簡単です。作成者はデモンストレーションとして Hugging Face の frgfm/imagenette データセットを選択しました。データセットには 10 が含まれていますラベル. 、およびすべては整数値として保存されます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP を分類に使用するには、整数値ラベルを対応するテキストコンテンツに変換する必要があります。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#タグと写真の類似性を直接計算する前に、CLIP モデルを初期化する必要があります。これは、Hugging Face で見つかった CLIP を使用して実装できます。トランスフォーマー。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

テキストトランスフォーマーはテキストを直接読み取ることはできませんが、トークン ID (または input_ID) と呼ばれる整数値のセットが必要です。各トークン ID は一意です。 integer はワードまたはサブワード (つまり、トークン) を表します。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

変換されたテンソルをテキストトランスフォーマに入力して、ラベルのテキスト埋め込みを取得します

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

現在 CLIP であることに注意してください出力ベクトルは正規化されていないため、ドット乗算後に得られる類似度の結果は不正確です。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

次に、テスト用にデータセット内の画像を選択し、同じ処理プロセスの後に画像ベクトルを取得できます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#画像を次元 (1, 3, 224, 224) のベクトルに変換した後、それをモデルに入力して埋め込みを取得します

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました次のステップでは、データセット内の画像埋め込みと 10 個のラベルテキスト埋め込みの間のドット積の類似性を計算します。最も高いスコアを持つものが予測されたカテゴリです。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

#モデルは、データセット全体でカセットプレーヤー (カセットプレーヤー) の結果を返します。再度実行すると、98.7% の精度が得られます。

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたゼロショット分類、マルチモーダル検索、ターゲット検出、生成に加えて、 OpenAI の Dall-E や Stable の廃止、CLIP などのモデルは、コンピュータービジョンへの新たな扉を開きます。

以上がImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7536

CakePHP チュートリアル

1379

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

時系列予測 NLP 大規模モデルの新機能: 時系列予測の暗黙的なプロンプトを自動的に生成 Mar 18, 2024 am 09:20 AM

今日は、時系列予測のパフォーマンスを向上させるために、時系列データを潜在空間上の大規模な自然言語処理 (NLP) モデルと整合させる方法を提案するコネチカット大学の最近の研究成果を紹介したいと思います。この方法の鍵は、潜在的な空間ヒント (プロンプト) を使用して時系列予測の精度を高めることです。論文タイトル: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting ダウンロードアドレス: https://arxiv.org/pdf/2403.05798v1.pdf 1. 大きな問題の背景モデル

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

See all articles

ImageNet のゼロサンプル精度が初めて 80% を超え、地球上で最も強力なオープンソース CLIP モデルが更新されました

CLIP は、テキストを埋め込みに変換する Transformer エンコーダーと、画像をエンコードする Visual Transformer (ViT) の 2 つのモデルで構成されます。

ゼロショット分類に CLIP を使用する

Python 実装

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック