DNN はさまざまな実用的なアプリケーションで広範な成功を収めてきましたが、DNN がどのように意思決定を行うかを説明するのが難しいため、そのプロセスはブラック ボックスとみなされることがよくあります。解釈可能性の欠如は DNN の信頼性を損なうため、自動運転や AI 医療などの一か八かのタスクへの DNN の広範な適用を妨げます。したがって、説明可能な DNN はますます注目を集めています。
DNN を説明するための典型的な観点として、アトリビューション手法は、ネットワーク出力に対する各入力変数の帰属/重要度/寄与スコアを計算することを目的としています。たとえば、画像分類用の事前トレーニング済み DNN と入力画像が与えられた場合、各入力変数の属性スコアは、分類信頼スコアに対する各ピクセルの数値的影響を指します。
研究者たちは近年、多くのアトリビューション手法を提案してきましたが、そのほとんどは異なるヒューリスティックに基づいています。現在、これらの帰属方法の正しさをテストするための、または少なくともそれらの中核的なメカニズムを数学的に解明するための統一された理論的観点が欠如しています。
研究者たちは、さまざまなアトリビューション方法を統一しようと試みてきましたが、これらの研究ではいくつかの方法しか取り上げられていません。
この記事では、「14 の入力単位重要度帰属アルゴリズムの固有メカニズムの統一的な説明」を提案します。
#論文アドレス: https://arxiv.org/pdf/2303.01506.pdf
#実際、「移行に対する耐性を向上させる 12 のアルゴリズム」であろうと、「14 の入力ユニット重要度属性アルゴリズム」であろうと、それらはすべてエンジニアリング アルゴリズムによって最も大きな打撃を受けます。これら 2 つの分野では、ほとんどのアルゴリズムが経験的なものであり、人々は実験的な経験や直観的な理解に基づいて、いくつかのもっともらしい工学アルゴリズムを設計します。ほとんどの研究では、「入力ユニットの重要性が正確に何であるか」について厳密な定義や理論的な実証が行われていません。いくつかの研究では、特定の実証が行われていますが、多くの場合、それらは非常に不完全です。もちろん、「厳密な定義と実証の欠如」という問題は人工知能の分野全体に浸透していますが、特にこれら 2 つの方向で顕著です。
研究における本当の難しさは、さまざまな経験的帰属アルゴリズムが異なる直観に基づいて構築されていることが多く、それぞれの論文が独自の観点から「自分自身を正当化する」ことのみを目的としていることです。それぞれの設計帰属アルゴリズムさまざまな直観や視点に基づいていますが、さまざまなアルゴリズムの本質を統一的に記述するための標準化された数学言語がありません。
アルゴリズムのレビュー
数学について話す前に、この記事では以前のアルゴリズムを直感的なレベルから簡単にレビューします。1. 勾配ベースのアトリビューション アルゴリズム。 このタイプのアルゴリズムは一般に、各入力ユニットに対するニューラル ネットワークの出力の勾配が入力ユニットの重要性を反映できると考えられています。たとえば、Gradient*Input アルゴリズムは、入力単位の重要性を、勾配と入力単位値の要素ごとの積としてモデル化します。勾配は入力単位の局所的な重要度のみを反映できることを考慮して、スムーズ 勾配および統合勾配アルゴリズムは、平均勾配と入力単位値の要素ごとの積として重要度をモデル化します。ここで、これら 2 つの方法における平均勾配は、ドメイン内の勾配の平均値、または入力サンプルとベースライン点の間の線形補間点の平均勾配。同様に、Grad-CAM アルゴリズムは、各チャネルのすべての特徴勾配にわたるネットワーク出力の平均を取得して、重要度スコアを計算します。さらに、Expected Gradients アルゴリズムは、単一のベンチマーク ポイントを選択すると偏ったアトリビューション結果が得られることが多いと考えており、異なるベンチマーク ポイントの下での Integrated Gradients アトリビューション結果の期待値としてモデルの重要性を提案します。 #2. レイヤーごとのバックプロパゲーションに基づくアトリビューション アルゴリズム。 ディープ ニューラル ネットワークは非常に複雑なことが多く、ニューラル ネットワークの各層の構造は比較的単純です (たとえば、深いフィーチャは通常、浅いフィーチャの線形加算と非線形活性化関数です)。そのため、次の重要性の分析が容易になります。浅い特徴から深い特徴まで。したがって、このタイプのアルゴリズムは、中間レベルの特徴の重要度を推定し、これらの重要度を層ごとに入力層まで伝播することによって、入力ユニットの重要度を取得します。このカテゴリのアルゴリズムには、LRP-epsilon、LRP-alphabeta、Deep Taylor、DeepLIFT Rescale、DeepLIFT RevealCancel、DeepShap などが含まれます。異なるバックプロパゲーション アルゴリズム間の基本的な違いは、層ごとに異なる重要度伝播ルールが使用されることです。 #3. オクルージョンベースのアトリビューション アルゴリズム。 このタイプのアルゴリズムは、モデル出力に対する入力ユニットのオクルージョンの影響に基づいて、入力ユニットの重要性を推測します。たとえば、Occlusion-1 (オクルージョン パッチ) アルゴリズムは、i 番目のピクセル (ピクセル ブロック) の重要性を、ピクセル i がオクルージョンされていない場合と、他のピクセルがオクルージョンされていない場合にオクルージョンされる場合の出力の変化としてモデル化します。 Shapley 値アルゴリズムは、他のピクセルの考えられるすべてのオクルージョン状況を包括的に考慮し、異なるオクルージョン状況下でピクセル i に対応する出力の平均変化としての重要性をモデル化します。研究により、Shapley 値は線形性、ダミー、対称性、効率性の公理を満たす唯一の帰属アルゴリズムであることが証明されています。 さまざまな経験的アトリビューション アルゴリズムを徹底的に研究した後、次のような質問について考えずにはいられません。数学的レベル ニューラル ネットワークの属性によってどのような問題が解決されますか?多くの経験的帰属アルゴリズムの背後に、統一された数学的モデリングとパラダイムはあるのでしょうか?この目的を達成するために、帰属の定義から始めて上記の問題を検討してみます。アトリビューションとは、ニューラル ネットワーク出力に対する各入力ユニットの重要度スコア/寄与を指します。したがって、上記の問題を解決する鍵は、(1) 「ネットワーク出力に対する入力ユニットの影響メカニズム」を数学レベルでモデル化し、(2) 重要度の設計にこの影響メカニズムを使用する経験的帰属アルゴリズムがどれだけあるのかを説明することです。帰属式。 最初の重要なポイントに関して、私たちの研究では、各入力ユニットがニューラル ネットワークの出力に 2 つの方法で影響を与えることが多いことがわかりました。一方、ある入力装置が他の入力装置に依存することなく独立して動作し、ネットワークの出力に影響を与えることを「独立効果」といいます。一方、入力装置が他の入力装置と連携して一定のパターンを形成することにより、ネットワークの出力に影響を与えることを「相互作用効果」と呼びます。私たちの理論は、ニューラル ネットワークの出力を、異なる入力変数の独立した効果と、異なるセットの入力変数間の相互作用の効果に厳密に分解できることを証明しています。 このうち、 は i 番目の入力ユニットの独立した効果を表し、 は、セット内の複数の効果 S 入力ユニット間の相互作用効果。 2 番目の重要な点に関して、既存の 14 個すべての経験的帰属アルゴリズムの内部メカニズムが、上記の独立ユーティリティと対話ユーティリティの割り当てと、異なる属性を表現できることを発見しました。アルゴリズムは、独立ユーティリティと対話ユーティリティを分散します。ニューラル ネットワーク入力ユニットを異なる割合で使用します。具体的には、 # とします。 は、i 番目の入力単位の帰属スコアを表します。我々は、14 個すべての経験的帰属アルゴリズムによって得られた が次の数学的パラダイム (つまり、独立効用と対話効用の加重和) として一様に表現できることを厳密に証明します。 14 の経験的アトリビューション アルゴリズムの内部メカニズムを統合する
は、i 番目の入力ユニット ## に割り当てられた j 番目の入力ユニットの独立した効果の割合を反映します。 # は、集合 S 内の複数の入力ユニット間の相互作用効果のうち、i 番目の入力ユニットに割り当てられる割合を表します。多くのアトリビューション アルゴリズムの「根本的な違い」は、異なるアトリビューション アルゴリズムが異なる割り当て比率 に対応することです。 #表 1 は、14 の異なるアトリビューション アルゴリズムが独立した効果とインタラクティブな効果をどのように割り当てるかを示しています。
チャート 1. 14 個のアトリビューション アルゴリズムは、独立した効果および対話型の効果として記述できます。加重和のパラダイム。このうち
はそれぞれテイラー独立効果とテイラー相互作用効果を表し、 を満たします。 は、独立したエフェクト とインタラクティブなエフェクト を改良したものです。
##アトリビューション アルゴリズムの信頼性を評価するための 3 つの主要な基準
調査の中で属性説明の真の値を取得/ラベル付けする方法がないため、特定の属性説明アルゴリズムの信頼性を経験的な観点から評価することはできません。 「帰属説明アルゴリズムの信頼性に関する客観的な評価基準の欠如」という根本的な欠陥は、帰属説明研究の学術分野で広範な批判と疑問を引き起こしています。
この研究でアトリビューション アルゴリズムの公開メカニズムが明らかになったことで、同じ理論的枠組みの下で、さまざまなアトリビューション アルゴリズムの信頼性を公平に評価し、比較できるようになります。具体的には、あるアトリビューションアルゴリズムが独立効果と相互作用効果を公平かつ合理的に配分しているかどうかを評価するために、以下の3つの評価基準を提案します。
(1)ガイドライン 1: 割り当てプロセスですべての独立した効果と対話型効果をカバーします。ニューラル ネットワークの出力を独立した効果とインタラクティブな効果に分解した後、信頼できるアトリビューション アルゴリズムは、割り当てプロセスですべての独立した効果とインタラクティブな効果を可能な限りカバーする必要があります。たとえば、「I'm not happy」という文への帰属は、「I'm」、「not」、「happy」という 3 つの単語の独立した効果をすべてカバーする必要があり、また、J (私は、そうではない)、J (私は、幸せです) もカバーする必要があります。 ) 、J (そうではない、幸せではない)、J (私は、そうではない、幸せではない) など、考えられるすべての相互作用効果。
(2)ガイドライン 2: 独立したエフェクトやインタラクションを無関係な入力ユニットに割り当てないでください。 i 番目の入力ユニットの独立したエフェクトは、i 番目の入力ユニットにのみ割り当てられ、他の入力ユニットには割り当てられません。同様に、集合 S 内の入力ユニット間の相互作用効果は、集合 S 内の入力ユニットにのみ割り当てられるべきであり、集合 S の外の入力ユニット(相互作用に参加していない)には割り当てられるべきではありません。たとえば、「not」と「happy」の間の相互作用効果を「I'm」という単語に割り当てるべきではありません。
(3) ガイドライン 3: 割り当てを完了する 。それぞれの独立したエフェクト (インタラクション エフェクト) は、対応する入力ユニットに完全に割り当てられる必要があります。言い換えれば、ある独立した効果(相互作用効果)によって対応するすべての入力ユニットに割り当てられた属性値は、完全に独立した効果(相互作用効果)の値に合計される必要があります。たとえば、交互作用効果 J (not、happy) は、効果 (not、happy) の一部を単語 not に割り当て、効果の一部 を割り当てます。 (違う、幸せ) 幸せという言葉を贈ってください。したがって、分配率は を満たす必要があります。
次に、これら 3 つの評価基準を使用して、上記の 14 の異なるアトリビューション アルゴリズムを評価しました (表 2 を参照)。アルゴリズムの Integrated Gradients、Expected Gradients、Shapley value、Deep Shap、DeepLIFT Rescale、DeepLIFT RevealCancel がすべての信頼性基準を満たしていることがわかりました。
表 2. 14 の異なるアトリビューション アルゴリズムが 3 つの信頼性を満たすかどうかのまとめ基準 評価基準。
著者の紹介この記事の著者であるDeng Huiqiは、中山大学の応用数学の博士号を取得しています。博士課程の在学中に、香港バプティスト大学のコンピュータ サイエンス学部とテキサス A&M 大学の客員学生として勤務し、現在は Zhang Quanshi のチームで博士研究員として研究を行っています。研究の方向性は主に信頼性・解釈可能な機械学習であり、ディープニューラルネットワークの帰属の重要性の説明、ニューラルネットワークの表現能力の説明などが含まれます。
Deng Huiqi は初期段階で多くの仕事をしました。張先生は、証明方法とシステムをよりスムーズにするために、最初の作業が完了した後、理論を再構成するのを手伝っただけです。鄧慧奇さんは卒業まであまり論文を書かなかったが、2021年末に張先生のもとに来てからは、ゲームインタラクションシステムの下で1年以上の間に、(1)ニューラルの共通表現ボトルネックの発見と理論的説明を含む3つの課題を遂行した。ネットワーク、つまりニューラル ネットワークは、中程度の複雑さのインタラクティブな表現をモデル化するのにさらに熟練していないことが示されています。この研究は幸運にも ICLR 2022 の口頭論文に選ばれ、レビュースコアはトップ 5 にランクされました (スコア 8 8 8 10)。 (2) この理論は、ベイジアン ネットワークの概念的表現傾向を証明し、ベイジアン ネットワークの分類性能、汎化能力、敵対的堅牢性を説明するための新しい視点を提供します。 (3) トレーニング プロセス中にさまざまな複雑さのインタラクティブな概念を学習するニューラル ネットワークの能力を理論的に説明します。
以上が14 のアトリビューション アルゴリズムを理解して統合し、ニューラル ネットワークを解釈可能にするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。