画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょう
画像の取得で問題が発生したことがありますか?
大量の画像の中から必要な画像を正確に見つけるのが難しいか、テキストベースの検索では不十分です。この問題に関して、Microsoft Research Asia と Microsoft Cloud Computing and Artificial Intelligence Division の研究者は、軽量ビジュアル モデルに関する詳細な研究を実施し、ビジュアル Transformer を実現するためのビジュアル事前トレーニング モデルの一連の設計および圧縮方法を提案しました。 。
現在、この方法とモデルは Microsoft の Bing 検索エンジンに適用され、正確かつ高速な推論と数百億枚の画像の取得が実現しています。この記事では、軽量ビジュアル事前トレーニング モデルの開発、主要なテクノロジ、アプリケーション、可能性、および将来の機会と課題について詳しく説明します。関連技術の開発を共同で推進します。
最近、Transformer ベースのビジュアル事前トレーニング モデルは、多くのコンピューター ビジョン タスクで優れたパフォーマンスを達成し、広く注目を集めています。ただし、ビジュアル Transformer 事前トレーニング モデルには通常、パラメータが大きく複雑性が高いため、実際のアプリケーション、特にリソースに制約のあるデバイスやリアルタイム要件の高いシナリオでの展開と使用が制限されます。したがって、大規模なビジュアル事前トレーニング モデルの「軽量化」に関する研究が、学界と産業界で新たなホットなトピックとなっています。
これに関して、Microsoft Research Asia と Microsoft クラウド コンピューティングおよび人工知能部門の研究者は、大規模なビジュアル モデルの構造設計とトレーニング推論について徹底的な調査を実施しました。大規模モデルの軽量、リアルタイム、クラウド展開も革新的に適用されています。この記事では、軽量ビジュアル事前トレーニング モデルの開発から開始し、モデルの軽量化研究における主要なテクノロジー、および実際の製品における軽量ビジュアル Transformer モデルの応用と可能性を探り、最後に、将来の開発機会と展望を展望します。軽量ビジュアルモデルへの挑戦。
大規模なビジュアルモデルは際限なく出現しますが、軽量の事前トレーニング済みモデルにはあまり興味がありません
近年、ディープラーニングが使用されていますImageNet 画像分類タスクにおける進歩は主に、ビジュアル モデルの容量の大幅な拡張によるものです。図 1 に示すように、わずか数年で、ビジュアル事前トレーニング モデルの容量は、4,450 万個のパラメーターを備えた ResNet-101 モデルから、150 億個のパラメーターを備えた V-MoE モデルまで、300 倍以上に拡張されました。 -スケールのビジュアル事前トレーニング モデル トレーニング モデルは、画像の理解やビジュアル コンテンツの生成などのタスクにおいて大きな進歩を遂げました。
1. 軽量モジュール設計
軽量かつ低遅延のモジュールは、軽量モデルの重要な部分です。畳み込みニューラル ネットワークでは、代表的な軽量モジュールとして、MobileNet の Inverted Residual Block や ShuffleNet のチャネル ランダム クロスオーバー ユニット (Shuffle Unit) などがあります。 Visual Transformer 構造では、画像ブロック間の注意の計算では相対位置符号化情報が十分に考慮されていないため、研究者らはプラグアンドプレイの軽量な 2 次元画像相対位置符号化手法 iRPE を設計しました [1]。トレーニング ハイパーパラメータを変更せずにモデルのパフォーマンスを向上させます。さらに、視覚的な Transformer パラメータの冗長性の問題に対処するために、研究者は Weight Multiplexing モジュール [2] を設計しました。図 2 に示すように、この方法では、多層重みの再利用によってモデル パラメーターの冗長性が削減され、非共有線形変換が導入されてパラメーターの多様性が向上します。
Neural Architecture Search は、モデル設計空間から、より軽量でパフォーマンスの優れたモデル構造を自動的に見つけることができます [3]。畳み込みニューラルネットワークでは、NASNetやEfficientNetなどが代表的な作品です。視覚的な Transformer 構造探索では、視覚モデルのチャネル幅、ネットワークの深さ、ヘッド数などの複数の次元に対して AutoFormer [4] と S3 [5] が次々と提案され、視覚モデルの動的スケーラブルなトレーニングと拡張性を実現しています。 . 構造検索。同じモデル精度であれば、探索によって得られた新しいモデルの方がパラメータと計算の数が少なくなります。注目に値するのは、S3 では、研究者が E-T エラー [5] と重み共有スーパーネットを使用して検索空間をガイドおよび改善し、より効率的なモデル構造を取得すると同時に、図に示すように検索空間の進化プロセスも分析したことです。 3 を示します。同時に、モデル構造検索のプロセスは、軽量モデルの設計のための効果的な設計経験とリファレンスを提供します。
#図 3: 軽量モデル検索スペースの進化プロセス
3. 視覚的な大規模モデルの圧縮知識の伝達軽量の事前トレーニング済みモデルに関するもう 1 つの問題は、モデルの容量が限られているため、大規模なデータに含まれる豊富な情報や知識を直接学習することが難しいことです。この問題を解決するために、研究者らは、大きなモデルの知識を軽量の小さなモデルに転送する高速な事前トレーニング蒸留スキームを提案しました [6]。図 4 に示すように、従来の 1 段階の知識の蒸留とは異なり、高速事前トレーニングの蒸留は 2 つの段階に分割されます: 1) 大規模モデルのトレーニング プロセスで使用されるデータ拡張情報と予測情報の圧縮と保存、2) ロードと復元大規模モデルの予測情報とデータが強化された後、大規模モデルは教師として使用され、トレーニング前の蒸留を通じて軽量のスチューデント モデルの学習とトレーニングをガイドします。この手法は、枝刈りや量子化とは異なり、重み共有に基づいて前述の重み再利用 [2] を使用し、軽量の重み変換と蒸留を導入することで、大規模な視覚的事前学習モデルを圧縮することに成功し、普遍的でより堅牢な軽量モデルを取得します。この方法では、パフォーマンスを犠牲にすることなく、元の大きなモデルを何十回も圧縮できます。
図 4: トレーニング前の知識の迅速な蒸留この一連の研究結果は、単にコンピューター ビジョン (CVPR、ICCV、ECCV、NeurIPS など) に関する主要な学術会議で多くの論文が発表されており [1-6]、Microsoft Bing との連携を通じて、軽量の事前トレーニング モデルが画像検索製品に適用されることに成功しています。 . 実際のビジネスにおける画像やビデオのコンテンツを理解する能力を向上させます。
軽量ビジュアル事前トレーニング モデルのアプリケーション
軽量のビジュアル事前トレーニング モデルは、特にリアルタイムのレンダリングとクラウド ビデオの強化、エンドツーエンドの画像テスト、ビデオなど、高いリアルタイム要件やリソース制約があるシナリオで多くの実用的な用途があります。内容理解。軽量ビジュアルモデルは、スマート小売、先端製造、その他の分野で幅広い応用の可能性を示しており、将来的にはメタバースや自動運転などの新興産業で重要な役割を果たすことになります。 Microsoft の Bing 製品での画像コンテンツ検索を例として、軽量ビジュアル モデルの実際のアプリケーションと展開を以下に示します。
現時点では、コンテンツベースの画像検索は、画像のカテゴリ属性を理解する点では比較的成熟していますが、複雑なシーンのコンテンツを理解することには依然として大きな課題があります。複雑なシーンの写真には、通常、深い被写界深度、乱雑な背景、多くの登場人物、複雑なオブジェクトの関係などの特徴があり、コンテンツの理解が大幅に困難になるため、事前トレーニング モデルの堅牢性と一般化に対してより高い要件が課せられます。
たとえば、アニメ画像の検索品質は長い間効果的に改善できませんでした。主な課題は次のとおりです。ペイントの線や色が実際のシーン画像よりも誇張されており、より多くのアクションが含まれています。とシーンがあり、スタイルの内容は漫画によって大きく異なります。図 5 ~ 7 は、それぞれ「スラムダンク」、「ピカチュウ」、「キャプテン」の 3 つの異なる漫画のキャラクターと動作を示しており、漫画のスタイルと内容は大きく異なります。漫画の絵の内容を効果的に理解する方法により、視覚的な事前トレーニング モデルに対するより高い要件が提示されます。
図 5: Microsoft Bing 検索エンジンでは、スラム ダンク マスターのアクションには、ダンク、ドリブル、スティール、シュートなどが含まれます。 .
図 6: Microsoft Bing 検索エンジンで、リンゴを食べる、スイカを食べる、アイスクリームを食べるなどのピカチュウの行動を理解します。
もちろん、研究者は、軽量の事前トレーニング済みビジュアル モデルが直面する課題も認識しています。一方で、モデル構造設計の観点からは、数の制約の下でモデルの最適な学習能力を達成する方法が課題です。モデルパラメータと推論遅延の問題は、学術界や産業界において常に大きな関心事となってきました。多くの効果的なモデル構造が蓄積され、普遍近似定理 (UAT) やニューラル ネットワーク構造探索 (NAS) などの分野で大きな進歩が見られましたが、既存の軽量の事前学習済み視覚モデルや視覚的な大規模視覚モデルにはまだギャップがあります。さらに最適化および改善する必要があるモデル間。一方、トレーニング方法に関しては、学界や産業界が大規模な視覚モデルに対する自己監視、画像分類、マルチモダリティなどのさまざまなトレーニング方法を提案しており、モデルの一般的な機能が大幅に向上しています。容量が限られた軽量モデルに対してより効果的なトレーニング方法を設計する方法には、さらなる研究と探索が必要です。 Microsoft Research Asia の研究者は、軽量の事前トレーニング済みビジュアル モデルの科学研究の進歩を継続的に推進し、この分野の関連テクノロジをコミュニケーションおよび探索するために、より多くのテクノロジ仲間を歓迎します。
以上が画像検索を効率的かつ正確に実行するにはどうすればよいですか?軽量ビジョンの事前トレーニング済みモデルを見てみましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
