ホームページ > テクノロジー周辺機器 > AI > 画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
リリース: 2023-04-08 16:41:03
転載
1386 人が閲覧しました

画像の取得で問題が発生したことがありますか?

大量の画像の中から必要な画像を正確に見つけるのが難しいか、テキストベースの検索では不十分です。この問題に関して、Microsoft Research Asia と Microsoft Cloud Computing and Artificial Intelligence Division の研究者は、軽量ビジュアル モデルに関する詳細な研究を実施し、ビジュアル Transformer を実現するためのビジュアル事前トレーニング モデルの一連の設計および圧縮方法を提案しました。 。

現在、この方法とモデルは Microsoft の Bing 検索エンジンに適用され、正確かつ高速な推論と数百億枚の画像の取得が実現しています。この記事では、軽量ビジュアル事前トレーニング モデルの開発、主要なテクノロジ、アプリケーション、可能性、および将来の機会と課題について詳しく説明します。関連技術の開発を共同で推進します。

最近、Transformer ベースのビジュアル事前トレーニング モデルは、多くのコンピューター ビジョン タスクで優れたパフォーマンスを達成し、広く注目を集めています。ただし、ビジュアル Transformer 事前トレーニング モデルには通常、パラメータが大きく複雑性が高いため、実際のアプリケーション、特にリソースに制約のあるデバイスやリアルタイム要件の高いシナリオでの展開と使用が制限されます。したがって、大規模なビジュアル事前トレーニング モデルの「軽量化」に関する研究が、学界と産業界で新たなホットなトピックとなっています。

これに関して、Microsoft Research Asia と Microsoft クラウド コンピューティングおよび人工知能部門の研究者は、大規模なビジュアル モデルの構造設計とトレーニング推論について徹底的な調査を実施しました。大規模モデルの軽量、リアルタイム、クラウド展開も革新的に適用されています。この記事では、軽量ビジュアル事前トレーニング モデルの開発から開始し、モデルの軽量化研究における主要なテクノロジー、および実際の製品における軽量ビジュアル Transformer モデルの応用と可能性を探り、最後に、将来の開発機会と展望を展望します。軽量ビジュアルモデルへの挑戦。

大規模なビジュアルモデルは際限なく出現しますが、軽量の事前トレーニング済みモデルにはあま​​り興味がありません

近年、ディープラーニングが使用されていますImageNet 画像分類タスクにおける進歩は主に、ビジュアル モデルの容量の大幅な拡張によるものです。図 1 に示すように、わずか数年で、ビジュアル事前トレーニング モデルの容量は、4,450 万個のパラメーターを備えた ResNet-101 モデルから、150 億個のパラメーターを備えた V-MoE モデルまで、300 倍以上に拡張されました。 -スケールのビジュアル事前トレーニング モデル トレーニング モデルは、画像の理解やビジュアル コンテンツの生成などのタスクにおいて大きな進歩を遂げました。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

#図 1: ビジュアル事前トレーニング モデルのパラメーターの変化傾向グラフ

Microsoft かどうか30 億パラメータの Swin-V2 モデルは、Google がリリースした 18 億パラメータの ViT-G/14 モデルのままです。大規模なビジュアル モデルは、多くのタスク、特にその強力な小さなサンプル (数ショット) および一般化で優れたパフォーマンスを実証しています。ゼロショットの能力は、一般的な知能を達成するために非常に重要です。

ただし、実際の多くのシナリオでは、ストレージとコンピューティング リソースの制限により、大規模なモデルを直接デプロイすることが困難であるか、リアルタイムのニーズを満たすことができません。したがって、軽量の視覚事前トレーニング モデルに関する研究はますます重要になっており、実用化する価値が非常に高くなります。現在、軽量モデルを検討する作業がいくつかありますが、これらのメソッドのほとんどは、特定のタスクと特定の構造向けに設計されています。モデルの多用途性は、設計とトレーニングのプロセスでは考慮されず、データ ドメインとタスク全体で一般化されています。

軽量ビジュアル モデルの主要テクノロジーに関する研究

軽量ビジュアル事前トレーニング モデルを実現するために、マイクロソフトの研究者は 2 つの主要テクノロジーを発見しました。 : 1) より汎用性の高い軽量モデル構造を設計するにはどうすればよいですか? 2) 軽量のビジュアル事前トレーニング モデルの容量には限界があるため、小さなモデルが大規模なデータから効果的な情報を学習できるように、効率的な事前トレーニング方法を設計するにはどうすればよいですか?これらの問題に直面して、研究者たちはたゆまぬ研究と探求を通じていくつかの初期結果を達成しました。

軽量事前学習モデルの汎用性向上の核心は、限られたリソース(パラメータの量や遅延など)の条件下でモデルの学習能力をいかに強化するかにあります。大規模データの一般的な特徴を学習することは良いことであるため、研究者は次の 3 つの観点から詳細な探索を行いました。

1. 軽量モジュール設計

軽量かつ低遅延のモジュールは、軽量モデルの重要な部分です。畳み込みニューラル ネットワークでは、代表的な軽量モジュールとして、MobileNet の Inverted Residual Block や ShuffleNet のチャネル ランダム クロスオーバー ユニット (Shuffle Unit) などがあります。 Visual Transformer 構造では、画像ブロック間の注意の計算では相対位置符号化情報が十分に考慮されていないため、研究者らはプラグアンドプレイの軽量な 2 次元画像相対位置符号化手法 iRPE を設計しました [1]。トレーニング ハイパーパラメータを変更せずにモデルのパフォーマンスを向上させます。さらに、視覚的な Transformer パラメータの冗長性の問題に対処するために、研究者は Weight Multiplexing モジュール [2] を設計しました。図 2 に示すように、この方法では、多層重みの再利用によってモデル パラメーターの冗長性が削減され、非共有線形変換が導入されてパラメーターの多様性が向上します。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

#図 2: Transformer の重み多重化モジュール

2. 軽量モデルの検索

Neural Architecture Search は、モデル設計空間から、より軽量でパフォーマンスの優れたモデル構造を自動的に見つけることができます [3]。畳み込みニューラルネットワークでは、NASNetやEfficientNetなどが代表的な作品です。視覚的な Transformer 構造探索では、視覚モデルのチャネル幅、ネットワークの深さ、ヘッド数などの複数の次元に対して AutoFormer [4] と S3 [5] が次々と提案され、視覚モデルの動的スケーラブルなトレーニングと拡張性を実現しています。 . 構造検索。同じモデル精度であれば、探索によって得られた新しいモデルの方がパラメータと計算の数が少なくなります。注目に値するのは、S3 では、研究者が E-T エラー [5] と重み共有スーパーネットを使用して検索空間をガイドおよび改善し、より効率的なモデル構造を取得すると同時に、図に示すように検索空間の進化プロセスも分析したことです。 3 を示します。同時に、モデル構造検索のプロセスは、軽量モデルの設計のための効果的な設計経験とリファレンスを提供します。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう#図 3: 軽量モデル検索スペースの進化プロセス

3. 視覚的な大規模モデルの圧縮知識の伝達軽量の事前トレーニング済みモデルに関するもう 1 つの問題は、モデルの容量が限られているため、大規模なデータに含まれる豊富な情報や知識を直接学習することが難しいことです。この問題を解決するために、研究者らは、大きなモデルの知識を軽量の小さなモデルに転送する高速な事前トレーニング蒸留スキームを提案しました [6]。図 4 に示すように、従来の 1 段階の知識の蒸留とは異なり、高速事前トレーニングの蒸留は 2 つの段階に分割されます: 1) 大規模モデルのトレーニング プロセスで使用されるデータ拡張情報と予測情報の圧縮と保存、2) ロードと復元大規模モデルの予測情報とデータが強化された後、大規模モデルは教師として使用され、トレーニング前の蒸留を通じて軽量のスチューデント モデルの学習とトレーニングをガイドします。この手法は、枝刈りや量子化とは異なり、重み共有に基づいて前述の重み再利用 [2] を使用し、軽量の重み変換と蒸留を導入することで、大規模な視覚的事前学習モデルを圧縮することに成功し、普遍的でより堅牢な軽量モデルを取得します。この方法では、パフォーマンスを犠牲にすることなく、元の大きなモデルを何十回も圧縮できます。

図 4: トレーニング前の知識の迅速な蒸留

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょうこの一連の研究結果は、単にコンピューター ビジョン (CVPR、ICCV、ECCV、NeurIPS など) に関する主要な学術会議で多くの論文が発表されており [1-6]、Microsoft Bing との連携を通じて、軽量の事前トレーニング モデルが画像検索製品に適用されることに成功しています。 . 実際のビジネスにおける画像やビデオのコンテンツを理解する能力を向上させます。

軽量ビジュアル事前トレーニング モデルのアプリケーション

軽量のビジュアル事前トレーニング モデルは、特にリアルタイムのレンダリングとクラウド ビデオの強化、エンドツーエンドの画像テスト、ビデオなど、高いリアルタイム要件やリソース制約があるシナリオで多くの実用的な用途があります。内容理解。軽量ビジュアルモデルは、スマート小売、先端製造、その他の分野で幅広い応用の可能性を示しており、将来的にはメタバースや自動運転などの新興産業で重要な役割を果たすことになります。 Microsoft の Bing 製品での画像コンテンツ検索を例として、軽量ビジュアル モデルの実際のアプリケーションと展開を以下に示します。

現時点では、コンテンツベースの画像検索は、画像のカテゴリ属性を理解する点では比較的成熟していますが、複雑なシーンのコンテンツを理解することには依然として大きな課題があります。複雑なシーンの写真には、通常、深い被写界深度、乱雑な背景、多くの登場人物、複雑なオブジェクトの関係などの特徴があり、コンテンツの理解が大幅に困難になるため、事前トレーニング モデルの堅牢性と一般化に対してより高い要件が課せられます。

たとえば、アニメ画像の検索品質は長い間効果的に改善できませんでした。主な課題は次のとおりです。ペイントの線や色が実際のシーン画像よりも誇張されており、より多くのアクションが含まれています。とシーンがあり、スタイルの内容は漫画によって大きく異なります。図 5 ~ 7 は、それぞれ「スラムダンク」、「ピカチュウ」、「キャプテン」の 3 つの異なる漫画のキャラクターと動作を示しており、漫画のスタイルと内容は大きく異なります。漫画の絵の内容を効果的に理解する方法により、視覚的な事前トレーニング モデルに対するより高い要件が提示されます。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

図 5: Microsoft Bing 検索エンジンでは、スラム ダンク マスターのアクションには、ダンク、ドリブル、スティール、シュートなどが含まれます。 .

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

図 6: Microsoft Bing 検索エンジンで、リンゴを食べる、スイカを食べる、アイスクリームを食べるなどのピカチュウの行動を理解します。

画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう

##図 7: Microsoft の Bing 検索エンジンでの若いフットボール選手のシュート アクションの拡大図

上記の軽量の視覚的一般モデルと高速な事前トレーニング蒸留アルゴリズムは、Microsoft の Bing 検索エンジンでうまく使用されています。 Microsoft Research Asia が提供する視覚言語マルチモーダル事前トレーニング モデルの助けを借りて、Microsoft の Bing 画像検索機能はコミック コンテンツの理解を強化し、ユーザーのニーズにより適合する画像コンテンツを返すことができます。

同時に、Microsoft Bing 検索エンジンの巨大なインデックス ライブラリには、検索効率に対する非常に高い要件があります。 Microsoft Research Asia が提供する高速事前トレーニング蒸留メソッドは、事前トレーニングされた大規模モデルのインデックス作成機能を軽量モデルに効果的に移行し、既存のモデルの認識精度を 14% 向上させ、モデルの計算を大幅に最適化します。 、数百億枚の画像に対して高速な推論を実現します。

将来の機会と課題

モデルの軽量化は、人工知能の将来のアプリケーションの中核です。ビジョン テクノロジー、アルゴリズム、計算能力、データが向上し続けるにつれて、モデルの複雑さは劇的に増加し、ニューラル ネットワーク計算のエネルギー消費はますます高価になってきています。軽量ビジュアル モデルの高い計算効率と低い導入コストとアプリケーション コストは、将来のより実際の製品において大きな利点となる可能性があります。さらに、ローカライズされた軽量の事前トレーニング済みビジュアル モデルにより、より多くのサービスをサポートしながら、ユーザー データとプライバシーをより適切に保護できます。ユーザーのデータをデバイスから外部に出す必要がなくなり、モデルサービスなどの機能をリモートでアップグレードできるようになります。

もちろん、研究者は、軽量の事前トレーニング済みビジュアル モデルが直面する課題も認識しています。一方で、モデル構造設計の観点からは、数の制約の下でモデルの最適な学習能力を達成する方法が課題です。モデルパラメータと推論遅延の問題は、学術界や産業界において常に大きな関心事となってきました。多くの効果的なモデル構造が蓄積され、普遍近似定理 (UAT) やニューラル ネットワーク構造探索 (NAS) などの分野で大きな進歩が見られましたが、既存の軽量の事前学習済み視覚モデルや視覚的な大規模視覚モデルにはまだギャップがあります。さらに最適化および改善する必要があるモデル間。一方、トレーニング方法に関しては、学界や産業界が大規模な視覚モデルに対する自己監視、画像分類、マルチモダリティなどのさまざまなトレーニング方法を提案しており、モデルの一般的な機能が大幅に向上しています。容量が限られた軽量モデルに対してより効果的なトレーニング方法を設計する方法には、さらなる研究と探索が必要です。 Microsoft Research Asia の研究者は、軽量の事前トレーニング済みビジュアル モデルの科学研究の進歩を継続的に推進し、この分野の関連テクノロジをコミュニケーションおよび探索するために、より多くのテクノロジ仲間を歓迎します。

以上が画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート