近年の GPT に代表される大規模モデルの大成功により、ディープ ニューラル ネットワーク + SGD + スケーリングの機械学習パラダイムが AI ステータスの分野での優位性を再び証明しました。 。ディープ ニューラル ネットワークに基づくパラダイムが成功するのはなぜですか?より一般的な見解は、ニューラル ネットワークには、大量の高次元入力データから抽象的で一般化可能な特徴を自動的に学習する機能があるというものです。残念ながら、現在の分析方法と数学的ツールの欠点により、「(深い) ニューラル ネットワークがそのような 特徴学習 プロセスをどのように実装するか」についての現在の理解はまだそれほど深くありません。このため、学術コミュニティにおける現在の関連研究のほとんどは、依然としてモデルが学習した特徴を「説明する」レベルに留まっており、データへの「介入」を通じてよりデータ効率が高く、より一般化可能なモデルを取得することは困難です。その学習プロセス。 ニューラル ネットワークの特徴学習プロセスについて議論するとき、最も基本的な質問の 1 つは、「ニューラル ネットワークは入力データからどのような特徴を学習するのか?」ということです。目標の観点から見ると、ニューラル ネットワークの特徴学習はタスクによって引き起こされる「副産物」であり、その目的はトレーニング エラーを最小限に抑えることです。したがって、ニューラル ネットワークはデータから「タスクに関連する」特徴を抽出し、残りの「タスクに無関係な」特徴はデータ ノイズに相当すると直感的に考えるでしょう。すると、ニューラルネットワークには「必要でなければ学習しない」という特性(正確には単純性バイアス)があるため、ニューラルネットワークは学習しない傾向があるはずです。これは現在の文献でも一般的な見解です。
しかし、ICML 2024 に承認された私たちの最近の研究では、この直感的な認識が実際には
間違っていることが分かりました。具体的には、非線形ニューラル ネットワークがタスク関連の特徴を学習すると、タスクに関係のない特徴も学習する傾向があり (これを「特徴汚染」と呼びます)、この傾向がニューラル ネットワークにとって困難になることがわかりました。ネットワークを分散シフトのあるシナリオに一般化します。理論的には、特徴の汚染が単純な 2 層 ReLU ネットワークでも発生し、ニューラル ネットワークにおける ニューロンの活性化 のカテゴリの非対称性と密接に関連していることを証明しました。また、実験的には、特徴の汚染が深層にも存在するという一連の証拠も示しました。 ResNet や Vision トランスフォーマーなどのネットワークに影響を与え、その一般化に悪影響を及ぼします。 私たちが発見した故障モードは、現在の流通外 (OOD) 一般化文献における偽の相関に基づく主流の分析とは完全に直交していることは言及する価値があります。したがって、より大きな観点から見ると、私たちの調査結果は、OOD の一般化にとってニューラル ネットワーク自体の帰納的バイアスの重要性を示しています。また、ニューラル ネットワークの特徴の学習と一般化に関する多くの研究の直観も再考する必要がある可能性があることを示しています。
次に、記事の具体的な内容をご紹介します:
研究の背景データ分布が変化するシナリオにおける汎化能力(つまり、OOD汎化能力)は、機械学習システムがどのようなシナリオで実行できるかを示す尺度です。現実性 環境内での展開を示す重要な指標の 1 つ。ただし、現在のニューラル ネットワークは、OOD 一般化シナリオで大幅なパフォーマンスの損失を受けることがよくあります。 OOD 一般化が失敗する理由については、文献でより主流の記述は、表現に偽の相関が存在する、つまり、モデルはタスクの目標に関連するが因果関係のない特徴を学習することになる、というものです。したがって、分布の変化によりこれらの特徴とタスク目標の間の相関関係が変化すると、予測にこれらの特徴に依存するモデルは元のパフォーマンスを保証できなくなります。
上記の理論的説明は非常に直感的で自然であり、近年の OOD アルゴリズム研究を導く主要な方針にもなっています。つまり、より優れた最適化目的関数と正規項を設計することで、モデルは誤った相関なしにより良い表現を学習できます。より強力な汎化性能を得るために。近年、この主要な方向に沿って、アルゴリズム設計を通じてモデルの OOD 一般化を改善しようとする多くの作業が行われてきました。ただし、最近の研究では、理論的保証が組み込まれた多くのアルゴリズムでは、実際のデータに基づく OOD 一般化タスクのパフォーマンス向上が非常に限られていることが示されています。 なぜこんなことが起こるのでしょうか?私たちは、OOD 一般化研究における現在の困難は、既存の分析の
2 つの制限に起因している可能性があると考えています。
言い換えれば、OOD 一般化の現在の説明と理論モデルは、現実世界の分布シフト シナリオを正確に反映していない可能性があります。したがって、ディープ ニューラル ネットワークに基づく OOD の一般化を理解するには、ニューラル ネットワークと SGD の誘導バイアスを考慮することが非常に必要であると考えられます。
実験
まず、実験計画を通じて、表現学習目標に基づいて設計された現在の OOD 一般化アルゴリズムによって達成できる「パフォーマンスの上限」を推定します。偽相関理論の指導の下、既存の研究は主に、補助表現学習目的関数を設計することによって、OOD によって一般化できる表現を学習するようにモデルを制約することを試みています。このような目標を最適化することで実際に望ましい表現を抽出できるかどうかを研究するために、私たちは理想的なシナリオを設計しました:
実験結果は上の写真に示されています。この図から、主な結果が 2 つあります:
そこで、私たちは自然にこう尋ねます: 教師モデルの表現を直接当てはめたので、生徒モデルと教師モデルの間の一般化ギャップはどこから来るのでしょうか?この実験現象を既存の理論的説明で直接説明するのは難しいことがわかりました:
要するに、既存の分析 では、実験で実際に観察された OOD 汎化能力のギャップ を説明するには不十分であると考えています。同時に、「OODで一般化できる表現を直接当てはめる」だけではOODで一般化できるモデルを保証できないため、表現学習の「目標」に加えて、表現学習の「プロセス」も考慮する必要があります。表現学習」、これはニューラル ネットワークの特徴学習ダイナミクスによって引き起こされる帰納的バイアスです。理論的にディープニューラルネットワークの特徴学習プロセスを直接分析することは非常に困難ですが、2層のReLUネットワークであっても興味深い特徴学習傾向、つまり「特徴汚染」を示すことがわかり、この傾向はまた、ニューラル ネットワークの OOD 一般化にも直接関連しています。
理論
このセクションでは、2 層 ReLU ネットワークに基づく二値分類問題における「特徴汚染」現象の存在を証明し、この現象の原因を分析します。具体的には、ネットワークへの入力が「コア特徴」と「バックグラウンド特徴」という 2 つの特徴の線形結合で構成されていると仮定します。このうち、コア特徴量の分布はカテゴリラベルに依存します(画像分類問題における分類対象として視覚化できます)が、背景特徴量の分布はラベルとは無関係です(画像分類問題で分類対象として視覚化できます)。画像分類問題における画像の背景やその他の要素)。他の要因の干渉を排除するために、これら 2 種類の特徴について次の仮定も立てます。
上記の条件下でも、ニューラル ネットワークはコア機能を学習しながら、タスクにまったく無関係な背景機能も学習することがわかりました。ネットワークの重み空間におけるこれら 2 つのフィーチャの結合により、バックグラウンド フィーチャで発生する分布シフトによってニューラル ネットワークのエラーも増加し、それによってネットワークの OOD 一般化が減少します。したがって、このニューラルネットワークの特徴学習の好みを「特徴汚染」と呼びます。以下では、機能汚染の原因を詳しく紹介します。全体的な分析アイデアの概略図は次のとおりです:
私たちの分析における 重要なポイントは、実際には、特徴汚染が、ニューラル ネットワーク内のニューロンがしばしば 非対称活性化 (非対称活性化) を持っているという事実に関連しているということです。さまざまなカテゴリに対応します。具体的には、十分な SGD 反復の後、ネットワーク内のニューロンの少なくとも重要な部分が、カテゴリのサンプルと正の相関を持つ傾向があることを証明できます (これらをこのニューロンの正のサンプルと呼び、yposを使用します)はそのカテゴリを表します)、別のカテゴリのサンプルとの負の相関を維持しています(これをこのニューロンの負のサンプルと呼び、ynegはそのカテゴリを表します)。これは、定理 4.1 で示されているように、これらのニューロンの活性化においてカテゴリーの非対称性をもたらします。まず、ネットワークの隠れ層の k 番目のニューロンについて、その重みベクトル w
kが t 回目の反復後に分割できることに気づきます。 上の式では、 Score
とSbg はそれぞれコア特徴と背景特徴のセットを表し、各 mj
はコア特徴または背景特徴に対応します。この式から、ニューロンの重みをさまざまな特徴への投影に分解できることがわかります (ここでは、さまざまな mj が直交する単位ベクトルであると仮定します)。さらに、各背景特徴 m
j、j に対する wk の負の勾配の投影が Sbg に属することを証明できます。 カテゴリ非対称活性化を持つニューロンの場合、定理によると4.1 より、その勾配は主にニューロンの正のサンプル y=ypos に依存し、負のサンプル y=yneg とはほとんど関係がないことがわかります。これにより、陽性サンプルに存在するコア フィーチャと背景フィーチャが同時に正の勾配投影を取得します。このプロセスは、フィーチャとラベル間の相関とは何の関係もありません。
定理 4.2 に示されているように、十分な SGD 反復の後、上記の勾配射影の蓄積により、ニューロンによって学習された特徴にコア特徴と結合された背景特徴の両方が含まれるようになることが証明されます。ニューロンの重みにおけるコア フィーチャとバックグラウンド フィーチャの分布が負になると、バックグラウンド フィーチャの負の分布シフトによりニューロンの活性化が減少し、追加の OOD エラーが発生します。定理 4.3 に示されているように、ID と OOD の汎化リスクに対する特徴汚染の影響を定量的に説明します。同時に、非線形活性化関数から生じる特徴汚染の間の関係をさらに説明するために、ニューラル ネットワーク、ニューラル ネットワークの非線形性を除去すると、特徴汚染は発生しなくなることを証明します: 以下の図に示すように、数値実験を通じて理論結果を検証しました。同時に、2 層 ReLU ネットワーク + SGD に加えて、他のタイプの活性化関数、適応ステップ サイズを備えたオプティマイザーなど、より一般的な設定にも結論を拡張しました。結果を図 3 に示します( d) )、特徴の汚染がより一般的な環境でも蔓延していることを示しています。 同時に、私たちが日常的に使用している ResNet や Vision トランスフォーマーなどの深層ネットワーク でも機能汚染の現象が発生し、私たちの実験での観察 OOD 一般化ギャップに達しました。この部分に興味がある人は、元の論文の第 5 章を参照してください。 要約とディスカッション 著者について | この記事の著者である Zhang Tianren は、清華大学オートメーション学科の博士号取得者であり、指導教員は Chen 教授です。フォン。著者は博士課程の期間中、主に機械学習における表現学習と一般化の問題に関する理論的およびアルゴリズム的研究を行い、ICML、NeurIPS、ICLR、IEEE TPAMI などの主要な機械学習会議やジャーナルに多くの論文を発表しました。 著者の所属 | 清華大学 VIPLAB 連絡先メールアドレス | zhangtr22@mails.tsinghua.edu.cn 参考文献
以上がICML 2024 | 特徴汚染: ニューラル ネットワークは無関係な特徴を学習し、一般化できないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。