生成ゼロショット学習機能を改善し、視覚的に強化された動的セマンティックプロトタイピング手法が CVPR 2024 に選ばれました-AI-php.cn

研究詳細

インテリジェントセキュリティおよび大規模モデルの分野に拡張可能

著者紹介

ホームページ

テクノロジー周辺機器

生成ゼロショット学習機能を改善し、視覚的に強化された動的セマンティックプロトタイピング手法が CVPR 2024 に選ばれました

王林

Mar 16, 2024 am 09:20 AM

ai 電車

私はあなたに会ったことはありませんが、あなたを「知る」ことは可能です。これは、人々が人工知能が「一目見た」後に達成することを望んでいる状態です。

この目標を達成するために、従来の画像認識タスクでは、さまざまなカテゴリラベルを持つ多数の画像サンプルでアルゴリズムモデルをトレーニングし、モデルが次の能力を獲得できるようにします。これらの画像を認識します。ゼロショット学習 (ZSL) タスクでは、人々はモデルが推論を導き、トレーニング段階で画像サンプルを見ていないカテゴリを識別できることを期待しています。

生成ゼロショット学習 (GZSL) は、ゼロショット学習の効果的な方法と考えられています。 GZSL では、最初のステップは、目に見えないカテゴリの視覚的特徴を合成するようにジェネレーターをトレーニングすることです。この生成プロセスは、属性ラベルなどの意味論的な記述を条件として利用することによって推進されます。これらの仮想視覚特徴が生成されたら、従来の分類子と同じように、目に見えないクラスを認識できる分類モデルのトレーニングを開始できます。

ジェネレーターのトレーニングは、生成ゼロショット学習アルゴリズムにとって非常に重要です。理想的には、意味論的記述に基づいてジェネレータによって生成された目に見えないカテゴリの視覚的特徴サンプルは、そのカテゴリの実際のサンプルの視覚的特徴と同じ分布を有するべきである。これは、高度な一貫性と信頼性を備えたサンプルを生成するために、ジェネレータが視覚的特徴間の関係とパターンを正確にキャプチャできる必要があることを意味します。ジェネレーターをトレーニングすることにより、さまざまなカテゴリ間の視覚的特徴の違いを効果的に学習できます。

既存の生成ゼロショット学習方法では、ジェネレーターはトレーニング中および使用中にガウスノイズを発生させます。カテゴリ全体の意味記述が条件付けされているため、ジェネレータは各サンプルインスタンスを説明するのではなくカテゴリ全体を最適化するのみに制限されているため、実際のサンプルの視覚的特徴を正確に反映することが困難であり、一般化パフォーマンスが低下します。モデル。さらに、見えるクラスと見えないクラスによって共有されるデータセットの視覚情報、つまりドメイン知識は、ジェネレーターのトレーニングプロセスでは十分に活用されず、見えるクラスから見えないクラスへの知識の伝達が制限されます。

これらの問題を解決するために、華中科技大学の大学院生とアリババの銀泰商業グループの技術専門家は、Visually Enhanced Dynamic Semantic Prototyping (VADS) と呼ばれる手法を提案しました。このアプローチにより、認識されたクラスの視覚的特徴がセマンティック条件にさらに完全に導入され、プッシュジェネレーターが正確なセマンティックと視覚のマッピングを学習できるようになります。本研究論文「生成ゼロショット学習のための視覚拡張動的セマンティックプロトタイプ」が、コンピュータビジョン分野のトップ国際学会であるCVPR 2024に採択されました。

具体的には、上記の研究は 3 つの革新的な点を示しています。

ゼロショット学習では、視覚的な機能を使用してジェネレーターを強化します。信頼性の高い視覚的特徴を生成するための革新的な方法です。

研究では、VDKL と VOSU という 2 つのコンポーネントも導入されました。これらのコンポーネントの助けを借りて、データセットの視覚的事前情報が効果的に取得され、データセットの視覚的特徴が動的に更新されます。画像、予測定義されたカテゴリの意味的説明が更新されました。この手法は視覚的な特徴を有効に活用しています。

実験結果は、この研究で視覚的機能を使用してジェネレーターを強化する効果が非常に重要であることを示しています。このプラグアンドプレイのアプローチは汎用性が高いだけでなく、発電機のパフォーマンスの向上にも優れています。

研究詳細

VADSは2つのモジュールで構成されています: (1) 視覚知覚領域知識学習モジュール(VDKL)は、視覚特徴の局所偏差と大域事前確率を学習します。、純粋なガウスノイズを置き換え、より豊富な事前ノイズ情報を提供するドメイン視覚知識 (2) ビジョン指向セマンティック更新モジュール (VOSU) は、サンプルの視覚的表現と更新されたドメインに従ってセマンティックプロトタイプを更新する方法を学習します。視覚的な知識もセマンティックプロトタイプに含まれます。

最後に、研究チームは、ジェネレーターの条件として、2 つのモジュールの出力を動的セマンティックプロトタイプベクトルに連結しました。多くの実験により、VADS 手法は、一般的に使用されるゼロショット学習データセットに対して既存の手法よりも大幅に優れたパフォーマンスを達成し、他の生成ゼロショット学習手法と組み合わせて精度を全体的に向上させることができることが示されています。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

視覚認識ドメイン知識学習モジュール (VDKL) では、研究チームはビジュアルエンコーダー (VE) とドメイン知識学習ネットワーク ( DKL）。このうち、VE は視覚的特徴を潜在特徴と潜在エンコーディングにエンコードします。ジェネレーターのトレーニング段階で、表示されたクラス画像サンプルを使用して VE をトレーニングするためにコントラスト損失を使用することにより、VE は視覚特徴のクラス分離性を強化できます。

ZSL 分類器をトレーニングするとき、ジェネレーターによって生成された目に見えない視覚特徴も VE に入力され、取得された潜在特徴は、最終的な視覚特徴サンプルとして生成された視覚特徴と接続されます。。 VE のもう 1 つの出力、つまり潜在エンコーディングは、DKL 変換後にローカル偏差 b を形成します。学習可能なグローバル事前 p およびランダムガウスノイズとともに、ドメイン関連の視覚的事前ノイズに結合され、他の生成ゼロサンプルを置き換えます。 . ジェネレーター生成条件の一部として学習で一般的に使用される純粋なガウスノイズ。

ビジョン指向セマンティック更新モジュール (VOSU) では、研究チームは視覚的セマンティック予測子 VSP とセマンティック更新マッピングネットワーク SUM を設計しました。 VOSU のトレーニングフェーズでは、VSP は画像の視覚的特徴を入力として受け取り、ターゲット画像の視覚的パターンをキャプチャできる予測セマンティックベクトルを生成します。同時に、SUM はカテゴリセマンティックプロトタイプを入力として受け取り、それを更新して取得します。更新されたセマンティックプロトタイプと、予測されたセマンティックベクトルと更新されたセマンティックプロトタイプの間のクロスエントロピー損失を最小限に抑えることによって、VSP と SUM がトレーニングされます。 VOSU モジュールは、視覚的な特徴に基づいてセマンティックプロトタイプを動的に調整できるため、ジェネレーターは新しいカテゴリの特徴を合成するときに、より正確なインスタンスレベルのセマンティック情報に依存できます。

実験部分では、上記の研究では、学術界で一般的に使用されている 3 つの ZSL データセット、属性 2 を持つ動物 (AWA2)、SUN 属性 (SUN)、および Caltech-USCD Birds-200 を使用しました。 -2011 (CUB)、従来のゼロショット学習および一般化されたゼロショット学習の主要指標と他の最近の代表的な手法との包括的な比較。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

従来のゼロショット学習の Acc 指標に関して、この研究で研究された方法は、既存の方法と比較して大幅な精度の向上を達成しました。 3 つのデータセットではそれぞれ 8.4%、10.3%、8.4% リードしています。一般化されたゼロショット学習シナリオでは、上記の研究方法は、未見のクラスの調和平均指数 H と既知のクラスの精度でも主導的な位置にあります。

VADS メソッドは、他の生成ゼロショット学習メソッドと組み合わせることもできます。たとえば、CLSWGAN、TF-VAEGAN、および FREE の 3 つの方法と組み合わせた後、3 つのデータセットの Acc および H インジケーターは大幅に改善され、3 つのデータセットの平均改善率は 7.4%/5.9%、5.6% です。 /6.4%と3.3%/4.2%。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

ジェネレーターによって生成された視覚的特徴を視覚化すると、次のようないくつかのカテゴリの特徴がもともと混同されていたことがわかります。図 (b) のように、可視クラス「Yellow Breasted Chat」と目に見えないクラス「Yellowthroat」に示されている 2 種類の特徴は、VADS 手法を使用した後、図 (c) の 2 つのクラスターに明確に分離できるため、分類マシントレーニング中の混乱。

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

インテリジェントセキュリティおよび大規模モデルの分野に拡張可能

Machine Heart は、研究チームが焦点を当てているゼロショット学習は、トレーニング段階で画像サンプルなしでモデルが新しいカテゴリを認識できるようにすることを目的としており、インテリジェントセキュリティの分野で潜在的な価値があります。

まず、セキュリティシナリオにおける新たなリスクに対処します。新しい脅威の種類や異常な動作パターンは引き続きセキュリティシナリオに出現するため、以前のトレーニングデータに出現する可能性があります。には出現しませんでした。ゼロショット学習により、セキュリティシステムは新しいリスクタイプを迅速に特定して対応できるため、セキュリティが向上します。

2 番目に、サンプルデータへの依存を減らす: 効果的なセキュリティシステムをトレーニングするために十分な注釈付きデータを取得するには、費用と時間がかかります。ゼロショット学習により、システムの多数への依存が軽減されます。画像サンプルの依存性を高め、研究開発コストを節約します。

第三に、動的環境での安定性の向上: ゼロショット学習では、セマンティック記述を使用して、目に見えないクラスパターンを認識します。画像の特徴に完全に依存する従来の方法と比較して、視覚環境の変化自然により安定します。

このテクノロジーは、画像分類問題を解決するための基盤テクノロジーとして、人、物品、車両、オブジェクトの属性認識など、視覚的分類テクノロジーに依存するシナリオにも実装できます。、行動認識など。特に、識別する新しいカテゴリを迅速に追加する必要があり、トレーニングサンプルを収集する時間がない、または大量のサンプルを収集するのが難しいシナリオ (リスク識別など) では、ゼロショット学習テクノロジーは大きな利点をもたらします。従来の方法よりも。

この研究技術は、現在の大型モデルの開発に参考になりますか?

研究者らは、生成ゼロショット学習の中核となるアイデアは、視覚言語モデル (CLIP など) と一致する意味空間と視覚特徴空間を調整することであると信じています。 ) 現在のマルチモーダル大規模モデルでは、研究目的は一貫しています。

それらの最大の違いは、生成ゼロショット学習は事前定義された限定されたカテゴリデータセットでトレーニングおよび使用されるのに対し、視覚言語の大規模モデルは大規模なデータセットでトレーニングされることです。データは、限られたカテゴリに限定されない普遍的な意味論的表現力と視覚的表現力を獲得しており、基本モデルとしてより幅広い応用範囲を持っています。

テクノロジーの適用シナリオが特定の分野である場合、大規模なモデルをこの分野に適応させて微調整することを選択できます。そのプロセスでは、同じまたは類似した分野で作業します。この記事のような研究の方向性、理論は、いくつかの有用なインスピレーションをもたらす可能性があります。

著者紹介

Hou Wenjin は華中科技大学の修士課程の学生で、コンピュータビジョン、生成モデリング、少数ショット学習などの研究に興味を持っています。、など。彼はアリババで働いています。この論文の作業は、銀泰ビジネスでのインターンシップ中に完了しました。

Wang Yan 氏、Alibaba-Intime コマーシャルテクノロジーディレクター、深セン Xiang インテリジェントチームのアルゴリズムリーダー。

Alibaba-Intime Business のシニアアルゴリズムエキスパートである Feng Xuetao は、主にオフライン小売業界やその他の業界におけるビジュアルおよびマルチモーダルアルゴリズムのアプリケーションに焦点を当てています。

以上が生成ゼロショット学習機能を改善し、視覚的に強化された動的セマンティックプロトタイピング手法が CVPR 2024 に選ばれましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7517

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Debian Readdirのパフォーマンスを最適化する方法 Apr 13, 2025 am 08:48 AM

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする：キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ（memcachedやredisなど）またはローカルキャッシュ（ファイルやデータベースなど）を考慮することができます。効率的なデータ構造を採用する：ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造（線形検索の代わりにハッシュテーブルなど）を選択してディレクトリ情報を保存およびアクセスする

Debian Readdirによるファイルソートを実装する方法 Apr 13, 2025 am 09:06 AM

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Apacheログレベルを設定する方法 Apr 13, 2025 am 08:33 AM

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1：メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集：テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く（nanoなど）：sudonano/etc/apache2/apache2.conf

Debian OpenSSLがどのように中間の攻撃を防ぐか Apr 13, 2025 am 10:30 AM

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃（MITM）を防ぐために、以下の測定値をとることができます。HTTPSを使用する：すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS（Transport Layer Security Protocol）を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認：クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

Debian Mail Server SSL証明書のインストール方法 Apr 13, 2025 am 11:39 AM

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト（CSR）を生成します：Openss

Debian Readdirが他のツールと統合する方法 Apr 13, 2025 am 09:42 AM

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1：C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude＃include＃include inctargc、char*argv []）{dir*dir; structdireant*entry; if（argc！= 2）{（argc！= 2）{

Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします（まだインストールされていない場合）：sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール：sudoiptables-l configuration

Debian syslogを学ぶ方法 Apr 13, 2025 am 11:51 AM

このガイドでは、Debian SystemsでSyslogの使用方法を学ぶように導きます。 Syslogは、ロギングシステムとアプリケーションログメッセージのLinuxシステムの重要なサービスです。管理者がシステムアクティビティを監視および分析して、問題を迅速に特定および解決するのに役立ちます。 1. syslogの基本的な知識Syslogのコア関数には以下が含まれます。複数のログ出力形式とターゲットの場所（ファイルやネットワークなど）をサポートします。リアルタイムのログ表示およびフィルタリング機能を提供します。 2。syslog（rsyslogを使用）をインストールして構成するDebianシステムは、デフォルトでrsyslogを使用します。次のコマンドでインストールできます：sudoaptupdatesud

See all articles

生成ゼロショット学習機能を改善し、視覚的に強化された動的セマンティック プロトタイピング手法が CVPR 2024 に選ばれました

研究詳細

インテリジェント セキュリティおよび大規模モデルの分野に拡張可能

著者紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

生成ゼロショット学習機能を改善し、視覚的に強化された動的セマンティックプロトタイピング手法が CVPR 2024 に選ばれました

インテリジェントセキュリティおよび大規模モデルの分野に拡張可能