画像の取得で問題が発生したことがありますか?
大量の画像の中から必要な画像を正確に見つけるのが難しいか、テキストベースの検索では不十分です。この問題に関して、Microsoft Research Asia と Microsoft Cloud Computing and Artificial Intelligence Division の研究者は、軽量ビジュアル モデルに関する詳細な研究を実施し、ビジュアル Transformer を実現するためのビジュアル事前トレーニング モデルの一連の設計および圧縮方法を提案しました。 。
現在、この方法とモデルは Microsoft の Bing 検索エンジンに適用され、正確かつ高速な推論と数百億枚の画像の取得が実現しています。この記事では、軽量ビジュアル事前トレーニング モデルの開発、主要なテクノロジ、アプリケーション、可能性、および将来の機会と課題について詳しく説明します。関連技術の開発を共同で推進します。
最近、Transformer ベースのビジュアル事前トレーニング モデルは、多くのコンピューター ビジョン タスクで優れたパフォーマンスを達成し、広く注目を集めています。ただし、ビジュアル Transformer 事前トレーニング モデルには通常、パラメータが大きく複雑性が高いため、実際のアプリケーション、特にリソースに制約のあるデバイスやリアルタイム要件の高いシナリオでの展開と使用が制限されます。したがって、大規模なビジュアル事前トレーニング モデルの「軽量化」に関する研究が、学界と産業界で新たなホットなトピックとなっています。
これに関して、Microsoft Research Asia と Microsoft クラウド コンピューティングおよび人工知能部門の研究者は、大規模なビジュアル モデルの構造設計とトレーニング推論について徹底的な調査を実施しました。大規模モデルの軽量、リアルタイム、クラウド展開も革新的に適用されています。この記事では、軽量ビジュアル事前トレーニング モデルの開発から開始し、モデルの軽量化研究における主要なテクノロジー、および実際の製品における軽量ビジュアル Transformer モデルの応用と可能性を探り、最後に、将来の開発機会と展望を展望します。軽量ビジュアルモデルへの挑戦。
近年、ディープラーニングが使用されていますImageNet 画像分類タスクにおける進歩は主に、ビジュアル モデルの容量の大幅な拡張によるものです。図 1 に示すように、わずか数年で、ビジュアル事前トレーニング モデルの容量は、4,450 万個のパラメーターを備えた ResNet-101 モデルから、150 億個のパラメーターを備えた V-MoE モデルまで、300 倍以上に拡張されました。 -スケールのビジュアル事前トレーニング モデル トレーニング モデルは、画像の理解やビジュアル コンテンツの生成などのタスクにおいて大きな進歩を遂げました。
軽量かつ低遅延のモジュールは、軽量モデルの重要な部分です。畳み込みニューラル ネットワークでは、代表的な軽量モジュールとして、MobileNet の Inverted Residual Block や ShuffleNet のチャネル ランダム クロスオーバー ユニット (Shuffle Unit) などがあります。 Visual Transformer 構造では、画像ブロック間の注意の計算では相対位置符号化情報が十分に考慮されていないため、研究者らはプラグアンドプレイの軽量な 2 次元画像相対位置符号化手法 iRPE を設計しました [1]。トレーニング ハイパーパラメータを変更せずにモデルのパフォーマンスを向上させます。さらに、視覚的な Transformer パラメータの冗長性の問題に対処するために、研究者は Weight Multiplexing モジュール [2] を設計しました。図 2 に示すように、この方法では、多層重みの再利用によってモデル パラメーターの冗長性が削減され、非共有線形変換が導入されてパラメーターの多様性が向上します。
#図 3: 軽量モデル検索スペースの進化プロセス
3. 視覚的な大規模モデルの圧縮知識の伝達軽量の事前トレーニング済みモデルに関するもう 1 つの問題は、モデルの容量が限られているため、大規模なデータに含まれる豊富な情報や知識を直接学習することが難しいことです。この問題を解決するために、研究者らは、大きなモデルの知識を軽量の小さなモデルに転送する高速な事前トレーニング蒸留スキームを提案しました [6]。図 4 に示すように、従来の 1 段階の知識の蒸留とは異なり、高速事前トレーニングの蒸留は 2 つの段階に分割されます: 1) 大規模モデルのトレーニング プロセスで使用されるデータ拡張情報と予測情報の圧縮と保存、2) ロードと復元大規模モデルの予測情報とデータが強化された後、大規模モデルは教師として使用され、トレーニング前の蒸留を通じて軽量のスチューデント モデルの学習とトレーニングをガイドします。この手法は、枝刈りや量子化とは異なり、重み共有に基づいて前述の重み再利用 [2] を使用し、軽量の重み変換と蒸留を導入することで、大規模な視覚的事前学習モデルを圧縮することに成功し、普遍的でより堅牢な軽量モデルを取得します。この方法では、パフォーマンスを犠牲にすることなく、元の大きなモデルを何十回も圧縮できます。
図 4: トレーニング前の知識の迅速な蒸留この一連の研究結果は、単にコンピューター ビジョン (CVPR、ICCV、ECCV、NeurIPS など) に関する主要な学術会議で多くの論文が発表されており [1-6]、Microsoft Bing との連携を通じて、軽量の事前トレーニング モデルが画像検索製品に適用されることに成功しています。 . 実際のビジネスにおける画像やビデオのコンテンツを理解する能力を向上させます。
軽量ビジュアル事前トレーニング モデルのアプリケーション
軽量のビジュアル事前トレーニング モデルは、特にリアルタイムのレンダリングとクラウド ビデオの強化、エンドツーエンドの画像テスト、ビデオなど、高いリアルタイム要件やリソース制約があるシナリオで多くの実用的な用途があります。内容理解。軽量ビジュアルモデルは、スマート小売、先端製造、その他の分野で幅広い応用の可能性を示しており、将来的にはメタバースや自動運転などの新興産業で重要な役割を果たすことになります。 Microsoft の Bing 製品での画像コンテンツ検索を例として、軽量ビジュアル モデルの実際のアプリケーションと展開を以下に示します。
現時点では、コンテンツベースの画像検索は、画像のカテゴリ属性を理解する点では比較的成熟していますが、複雑なシーンのコンテンツを理解することには依然として大きな課題があります。複雑なシーンの写真には、通常、深い被写界深度、乱雑な背景、多くの登場人物、複雑なオブジェクトの関係などの特徴があり、コンテンツの理解が大幅に困難になるため、事前トレーニング モデルの堅牢性と一般化に対してより高い要件が課せられます。
たとえば、アニメ画像の検索品質は長い間効果的に改善できませんでした。主な課題は次のとおりです。ペイントの線や色が実際のシーン画像よりも誇張されており、より多くのアクションが含まれています。とシーンがあり、スタイルの内容は漫画によって大きく異なります。図 5 ~ 7 は、それぞれ「スラムダンク」、「ピカチュウ」、「キャプテン」の 3 つの異なる漫画のキャラクターと動作を示しており、漫画のスタイルと内容は大きく異なります。漫画の絵の内容を効果的に理解する方法により、視覚的な事前トレーニング モデルに対するより高い要件が提示されます。
図 5: Microsoft Bing 検索エンジンでは、スラム ダンク マスターのアクションには、ダンク、ドリブル、スティール、シュートなどが含まれます。 .
図 6: Microsoft Bing 検索エンジンで、リンゴを食べる、スイカを食べる、アイスクリームを食べるなどのピカチュウの行動を理解します。
もちろん、研究者は、軽量の事前トレーニング済みビジュアル モデルが直面する課題も認識しています。一方で、モデル構造設計の観点からは、数の制約の下でモデルの最適な学習能力を達成する方法が課題です。モデルパラメータと推論遅延の問題は、学術界や産業界において常に大きな関心事となってきました。多くの効果的なモデル構造が蓄積され、普遍近似定理 (UAT) やニューラル ネットワーク構造探索 (NAS) などの分野で大きな進歩が見られましたが、既存の軽量の事前学習済み視覚モデルや視覚的な大規模視覚モデルにはまだギャップがあります。さらに最適化および改善する必要があるモデル間。一方、トレーニング方法に関しては、学界や産業界が大規模な視覚モデルに対する自己監視、画像分類、マルチモダリティなどのさまざまなトレーニング方法を提案しており、モデルの一般的な機能が大幅に向上しています。容量が限られた軽量モデルに対してより効果的なトレーニング方法を設計する方法には、さらなる研究と探索が必要です。 Microsoft Research Asia の研究者は、軽量の事前トレーニング済みビジュアル モデルの科学研究の進歩を継続的に推進し、この分野の関連テクノロジをコミュニケーションおよび探索するために、より多くのテクノロジ仲間を歓迎します。
以上が画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。