細分化されたバックドアトレーニングのバックドア防御手法：DBD-AI-php.cn

2.3 半教師あり学習と自己教師あり学習" >2.3 半教師あり学習と自己教師あり学習

4.2 ラベルノイズ学習のフィルター処理されたサンプル" >4.2 ラベルノイズ学習のフィルター処理されたサンプル

4.3 半教師あり微調整" >4.3 半教師あり微調整

5.1 データセットとベンチマーク" >5.1 データセットとベンチマーク

ホームページ

テクノロジー周辺機器

細分化されたバックドアトレーニングのバックドア防御手法：DBD

王林

Apr 25, 2023 pm 11:16 PM

電車勉強

香港中文大学(深セン)のウー・バオユアン教授の研究グループと浙江大学のチン・ザン教授の研究グループは、バックドア防御の分野で共同論文を発表し、無事受理されました。 ICLR2022による。

近年、バックドアの問題が広く注目を集めています。バックドア攻撃が提案され続けるにつれ、一般的なバックドア攻撃に対する防御方法を提案することはますます困難になっています。この論文では、セグメント化されたバックドアトレーニングプロセスに基づいたバックドア防御方法を提案します。

この記事では、バックドア攻撃が、バックドアを特徴空間に投影するエンドツーエンドの教師ありトレーニング手法であることを明らかにしています。これに基づいて、この記事ではバックドア攻撃を回避するためのトレーニングプロセスを分割します。この手法の有効性を証明するために、この手法と他のバックドア防御手法との比較実験が行われました。

#インクルージョンカンファレンス: ICLR2022

##記事リンク: https://arxiv.org/pdf/ 2202.03423 .pdf

コードリンク: https://github.com/SCLBD/DBD

背景の紹介

バックドア攻撃の目的は、トレーニングデータを変更したりトレーニングプロセスを制御したりすることで、モデルが正しくクリーンなサンプルを予測できるようにすることですが、バックドアのあるサンプルはターゲットラベルとして判断されます。。たとえば、バックドア攻撃者は、固定位置の白いブロックを画像 (つまり、毒された画像) に追加し、画像のラベルをターゲットラベルに変更します。これらのポイズニングされたデータを使用してモデルをトレーニングした後、モデルは特定の白いブロックを持つ画像がターゲットラベルであると判断します (次の図を参照)。

DBD: 基于分割后门训练过程的后门防御方法基本的なバックドア攻撃

モデルはトリガーとターゲットタグラベルを確立します)。

3 バックドア機能

CIFAR-10 データセットに対して BadNets 攻撃とクリーンラベル攻撃を実施しました (Krizhevsky、2009)。有害なデータセットでの教師あり学習とラベルのないデータセットでの自己教師あり学習 SimCLR (Chen et al., 2020a)。

DBD: 基于分割后门训练过程的后门防御方法

#バックドアの特性の T-sne 表示

に示すように、上の図 (a) ～ (b) に示すように、標準的な教師付きトレーニングプロセスの後、ポイズニングされたサンプル (黒い点で表されます) は、ポイズンラベル攻撃またはクリーンラベル攻撃に関係なく、クラスターとなって個別のクラスターを形成する傾向があります。この現象は、既存のポイズニングベースのバックドア攻撃の成功を示唆しています。過剰学習により、モデルはバックドアトリガーの特性を学習できるようになります。このモデルをエンドツーエンドの教師ありトレーニングパラダイムと組み合わせることで、特徴空間内の汚染されたサンプル間の距離を縮め、学習されたトリガー関連の特徴をターゲットラベルと結び付けることができます。逆に、上記の図 (c) ～ (d) に示すように、ラベルのない汚染データセットでは、自己教師ありトレーニングプロセスの後、汚染されたサンプルは元のラベルが付いているサンプルに非常に近くなっています。これは、自己教師あり学習によってバックドアを防止できることを示しています。

セグメンテーションに基づくバックドア防御

バックドアの特性分析に基づいて、セグメンテーションのトレーニングフェーズでのバックドア防御を提案します。以下の図に示すように、これは 3 つの主要な段階で構成されます。(1) 自己教師あり学習による精製された特徴抽出器の学習、(2) ラベルノイズ学習による信頼性の高いサンプルのフィルタリング、および (3) 半教師ありの詳細な学習チューニング。

#方法フローチャート DBD: 基于分割后门训练过程的后门防御方法 4.1 学習特徴抽出器

モデルを学習するためにトレーニングデータセットを使用します。モデルのパラメータには 2 つの部分が含まれており、1 つはバックボーンモデルのパラメータ、もう 1 つは全結合層のパラメータです。自己教師あり学習を利用してバックボーンモデルのパラメーターを最適化します。

DBD: 基于分割后门训练过程的后门防御方法ここで、は自己教師あり損失です (たとえば、SimCLR の NT-Xent (Chen et al、2020))。、特徴抽出者がバックドアの機能を学習するのは難しいことがわかります。

4.2 ラベルノイズ学習のフィルター処理されたサンプル

特徴抽出器がトレーニングされたら、特徴抽出器のパラメーターを修正し、トレーニングデータセットを使用して、さらに完全に学習します。接続層パラメータ ,

DBD: 基于分割后门训练过程的后门防御方法

# ここで、は教師あり学習損失 (たとえば、クロスエントロピー損失 (クロスエントロピー)) です。

このようなセグメンテーションプロセスにより、モデルがバックドアを学習することが困難になりますが、2 つの問題があります。まず、教師あり学習を通じて学習された方法と比較して、学習された特徴抽出器が第 2 段階でフリーズされるため、クリーンサンプルの予測精度がある程度低下します。次に、汚染されたラベル攻撃が発生すると、汚染されたサンプルが「外れ値」として機能し、学習の第 2 段階がさらに妨げられます。これら 2 つの問題は、汚染されたサンプルを削除し、モデル全体を再トレーニングまたは微調整する必要があることを示しています。

サンプルにバックドアがあるかどうかを判断する必要があります。モデルがバックドアサンプルから学習することは困難であると考えられるため、信頼性を区別指標として使用します。信頼性の高いサンプルはクリーンなサンプルであり、信頼性の低いサンプルは汚染されたサンプルです。実験を通じて、以下の図に示すように、対称クロスエントロピー損失を使用してトレーニングされたモデルは、2 つのサンプル間の損失ギャップが大きいため、識別度が高いことがわかります。

DBD: 基于分割后门训练过程的后门防御方法

対称クロスエントロピー損失とクロスエントロピー損失の比較

したがって, 対称クロスエントロピー損失を使用した固定特徴抽出器で全結合層をトレーニングし、信頼度のサイズによってデータセットを信頼性の高いデータと信頼性の低いデータにフィルタリングします。

4.3 半教師あり微調整

まず、信頼性の低いデータのラベルを削除します。半教師あり学習を使用してモデル全体を微調整します。

DBD: 基于分割后门训练过程的后门防御方法

ここで、は半教師あり損失 (MixMatch の損失関数 (Berthelot et al、2019)) です。

半教師あり微調整では、モデルがバックドアトリガーを学習するのを防ぐだけでなく、クリーンなデータセットでモデルが適切にパフォーマンスを発揮できるようにすることもできます。

5 実験

5.1 データセットとベンチマーク

この記事は 2 つの古典的なベンチマークに基づいていますデータすべての防御は、CIFAR-10 (Krizhevsky、2009) および ImageNet (Deng et al.、2009) (サブセット) を含むセットで評価されます。この記事では ResNet18 モデルを使用しています (He et al., 2016)

この記事では、4 つの典型的な攻撃、すなわちバッドネット (Gu et al., 2019) から防御するためのすべての防御方法を研究しています。混合戦略バックドア攻撃（混合）（Chen et al、2017）、WaNet（Nguyen & Tran、2021）、および敵対的摂動を伴うクリーンラベル攻撃（ラベル一貫性）（Turner et al、2019）。

DBD: 基于分割后门训练过程的后门防御方法

#バックドア攻撃の例の写真

5.2 実験結果

実験の判定基準は、BA が清浄サンプルの判定精度、ASR が汚染サンプルの判定精度です。

DBD: 基于分割后门训练过程的后门防御方法

バックドア防御の比較結果

上の表に示されているように、DBD は、すべての攻撃に対して、同じ要件を持つ防御 (つまり、DPSGD と ShrinkPad) よりも大幅に優れています。すべてのケースにおいて、DBD は DPSGD よりも BA が 20% 多く、ASR が 5% 低いという点で優れています。 DBD モデルの ASR はすべてのケースで 2% 未満 (ほとんどの場合 0.5% 未満) であり、DBD が隠れたバックドアの作成を首尾よく防止できることが確認されています。 DBD は、他の 2 つの方法、つまり NC および NAD と比較されます。どちらの方法でも、防御側はクリーンなローカルデータセットを持つ必要があります。

上の表に示すように、NC と NAD は、ローカルのクリーンデータセットからの追加情報を利用するため、DPSGD と ShrinkPad よりも優れたパフォーマンスを発揮します。特に、NAD と NC は追加情報を使用しますが、DBD はそれらよりも優れています。特に ImageNet データセットでは、NC による ASR 削減効果は限定的です。比較すると、DBD は最小の ASR を達成しますが、DBD の BA はほとんどすべてのケースで最高か 2 番目に高くなります。また、防御トレーニングを行わなかったモデルと比較して、毒タグ攻撃に対する防御時のBAの低下は2%未満でした。比較的大きなデータセットでは、すべてのベースライン手法の効果が低下するため、DBD の方がさらに優れています。これらの結果は、DBD の有効性を検証します。

#5.3 アブレーション実験

DBD: 基于分割后门训练过程的后门防御方法

##各段階でのアブレーション実験

# CIFAR-10 データセットで、提案された DBD とその 4 つのバリアント (

1 を含む) を比較しました。SS なしの DBD は自己教師あり学習からバックボーンを生成します。トレーニング済みのバックボーンに置き換えます。 CE を使用して、教師ありの方法で他の部分を変更しないでください。

#2.SS を使用して、自己教師あり学習を通じて学習したバックボーンをフリーズし、すべてのトレーニングサンプルで実行します。残りの完全に接続された層

3.SS (SCE あり)。2 番目のバリアントと似ていますが、対称クロスエントロピー損失を使用してトレーニングされています。

4.SS と SCE チューニング。3 番目のバリアントでフィルタリングされた信頼性の高いサンプルの完全に接続されたレイヤーをさらに微調整します。

上の表に示すように、元のエンドツーエンドの教師ありトレーニングプロセスを切り離すことは、隠れたバックドアの作成を防ぐのに効果的です。さらに、2 番目と 3 番目の DBD 亜種を比較して、ポイズンタグバックドア攻撃に対する防御における SCE 損失の有効性を検証します。さらに、4 番目の DBD 変異の ASR および BA は、3 番目の DBD 変異よりも低くなります。この現象は、信頼性の低いサンプルが削除されたことによるものです。これは、信頼性の低いサンプルからの有用な情報を利用しながら副作用を軽減することが防御にとって重要であることを示唆しています。

5.4 潜在的な適応型攻撃に対する耐性

攻撃者が DBD の存在を知っている場合、適応型攻撃を設計する可能性があります。攻撃者が防御者が使用するモデル構造を知ることができれば、以下に示すように、自己教師あり学習後にポイズニングされたサンプルが新しいクラスターに残るようにトリガーパターンを最適化することで適応型攻撃を設計できます。

攻撃設定

分類問題では、汚染する必要があるクリーンなサンプルを表し、サンプルを元のラベルで表し、訓練されたバックボーンであるとします。攻撃者による事前に汚染された画像の生成器が与えられた場合、適応型攻撃は、汚染された画像間の距離を最小限に抑えながら、汚染された画像の中心と、異なるラベルが付いた無害な画像のクラスターの中心との間の距離を最大化することにより、トリガーパターンを最適化することを目的としています。 .距離、つまり。

DBD: 基于分割后门训练过程的后门防御方法

# は距離の決定です。

DBD: 基于分割后门训练过程的后门防御方法実験結果

防御なしの適応攻撃のBAは94.96%、ASRは99.70%でした。ただし、DBDの防御結果はBA93.21%、ASR1.02%でした。言い換えれば、DBD はそのような適応型攻撃に対して耐性があります。

6 概要

ポイズニングベースのバックドア攻撃のメカニズムは、トレーニングプロセス中にトリガーパターンとターゲットラベルの間に潜在的な接続を確立することです。この論文では、この接続が主にエンドツーエンドの教師ありトレーニングパラダイム学習によるものであることを明らかにしています。この理解に基づいて、この記事ではデカップリングに基づくバックドア防御方法を提案します。多数の実験により、DBD 防御が良性サンプルの予測において高い精度を維持しながらバックドアの脅威を軽減できることが検証されています。

以上が細分化されたバックドアトレーニングのバックドア防御手法：DBDの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7552

CakePHP チュートリアル

1382

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

Kuaishou バージョンの Sora「Ke Ling」がテスト用に公開されています。120 秒以上のビデオを生成し、物理学をより深く理解し、複雑な動きを正確にモデル化できます。 Jun 11, 2024 am 09:51 AM

何？ズートピアは国産AIによって実現するのか？ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

わずか 250 ドルで、Hugging Face のテクニカルディレクターが Llama 3 を段階的に微調整する方法を教えます May 06, 2024 pm 03:52 PM

Meta が立ち上げた Llama3、MistralAI が立ち上げた Mistral および Mixtral モデル、AI21 Lab が立ち上げた Jamba など、おなじみのオープンソースの大規模言語モデルは、OpenAI の競合相手となっています。ほとんどの場合、モデルの可能性を最大限に引き出すには、ユーザーが独自のデータに基づいてこれらのオープンソースモデルを微調整する必要があります。単一の GPU で Q-Learning を使用して、大規模な言語モデル (Mistral など) を小規模な言語モデルに比べて微調整することは難しくありませんが、Llama370b や Mixtral のような大規模なモデルを効率的に微調整することは、これまで課題として残されています。。したがって、HuggingFace のテクニカルディレクター、Philipp Sch 氏は次のように述べています。

総合的にDPOを超える：Chen Danqi氏のチームはシンプルなプリファレンス最適化SimPOを提案し、最強の8Bオープンソースモデルも洗練させた Jun 01, 2024 pm 04:41 PM

大規模言語モデル (LLM) を人間の価値観や意図に合わせるには、人間のフィードバックを学習して、それが有用で、正直で、無害であることを確認することが重要です。 LLM を調整するという点では、ヒューマンフィードバックに基づく強化学習 (RLHF) が効果的な方法です。 RLHF 法の結果は優れていますが、最適化にはいくつかの課題があります。これには、報酬モデルをトレーニングし、その報酬を最大化するためにポリシーモデルを最適化することが含まれます。最近、一部の研究者はより単純なオフラインアルゴリズムを研究しており、その 1 つが直接優先最適化 (DPO) です。 DPO は、RLHF の報酬関数をパラメータ化することで、選好データに基づいてポリシーモデルを直接学習するため、明示的な報酬モデルの必要性がなくなります。この方法は簡単で安定しています

合体後のモデルは進化し、SOTAに直接勝利します！『トランスフォーマー』著者の新たな起業家としての功績が人気 Mar 26, 2024 am 11:30 AM

Huggingface の既製モデルを使用して「保存」します。それらを直接組み合わせて新しい強力なモデルを作成できますか? ！日本の大手モデル会社 sakana.ai は非常にクリエイティブで (「8 人のトランスフォーマー」の 1 人によって設立された会社です)、モデルを進化させて結合するこのような賢い方法を考え出しました。このメソッドは、新しいベースモデルを自動的に生成するだけでなく、そのパフォーマンスも格別です。70 億のパラメータを持つ日本の数学の大規模モデルを使用して、関連するベンチマークで最先端の結果を達成しました。これは、700 億のパラメータを超える Llama- 2およびその他の以前のモデル。最も重要なことは、このようなモデルの導出には勾配トレーニングが必要ないため、必要なコンピューティングリソースが大幅に少なくなるということです。 NVIDIA の科学者 JimFan はそれを読んで賞賛しました

See all articles