SGD の優秀性がもたらすディープラーニングの重要性
ビッグデータダイジェストを作成
7月、ニューヨーク大学(NYU)の博士研究員ナオミ・サフラ氏が「解釈可能性創造論」というタイトルの記事を執筆し、進化論の観点から説明した。確率的勾配降下法 (SGD) と深層学習の関係は考えさせられるものです。
例: 「人間の尾骨と同じように、一部の現象はモデルのトレーニング プロセス中に本来の役割を失い、変性した器官に似たものになる可能性があります。」
「寄生ヒヨコの挙動やニューラルネットワークの内部性能など、システムがどのように発展するかを考慮しなければ、何が貴重な情報であるかを区別することは困難になります。」
以下は原文をそのまま編集したものです。本来の意味で、お楽しみください。
何世紀も前のヨーロッパ人にとって、カッコウの卵が巣に存在することは、営巣する鳥にとって名誉なことでした。というのは、巣を作るこの鳥は、自分の(追放された)雛よりも熱心に「聖なる客人」に餌をやるからであり、これはキリスト教のもてなしの精神と一致する行動だからである。
1859年、チャールズ・ダーウィンは、時折寄生する別のフィンチを研究することによって、鳥の行動に関する楽観的で協力的な概念に疑問を投げかけました。
進化の観点からカッコウの役割を考慮しないと、営巣する鳥がカッコウの雛を寛大に所有するのではなく、不運な犠牲者であることを理解するのは困難です。 。
進化生物学者テオドシウス・ドブジャンスキーはこう言いました:「進化の輝きがなければ、生物学は何も理解できません。」
確率的勾配降下法は生物学的進化の真の形式ではありませんが、事後分析は機械学習における科学的手法は、多くの場合、モデルの動作の起源を理解する必要がある生物学における科学的手法と多くの類似点があります。
寄生ヒヨコの動作を研究している場合でも、ニューラル ネットワークの内部動作を研究している場合でも、システムがどのように発展するかを考慮せずに、何が貴重な情報であるかを識別することは困難です。
したがって、モデルを分析するときは、トレーニング終了時の状態だけでなく、トレーニング プロセス中の複数の中間チェックポイントにも注意を払うことが重要です。このような実験の費用は最小限ですが、モデルの動作をよりよく理解して説明するのに役立つ有意義な発見につながる可能性があります。
まさに正しい話
人間は因果的思考の持ち主であり、たとえ科学的根拠が欠けていたとしても、物事間の因果関係を探すことを好みます。
NLP の分野では、研究者は観察された動作について説明可能な因果関係の説明を提供する傾向がありますが、この説明ではモデルの内部動作が実際には明らかにならない可能性があります。たとえば、構文上の注意分布や選択ニューロンなどの解釈可能性のアーティファクトに細心の注意を払うかもしれませんが、実際には、モデルが実際にこれらの動作パターンを使用しているかどうかはわかりません。
この問題を解決するには、因果モデリングが役に立ちます。モデルの動作に対する影響をテストするためにモデルの特定の機能やパターンに介入 (変更または操作) しようとする場合、この介入は特定の明白な特定の種類の動作のみを対象とする可能性があります。言い換えれば、モデルが特定の機能やパターンをどのように使用するかを理解しようとする場合、これらの動作の一部しか観察できず、他の潜在的な、それほど明白ではない動作は無視される可能性があります。
したがって、実際には、表現内の特定のユニットに対して特定の種類の小規模な介入しか実行できず、特徴間の相互作用を正しく反映できない可能性があります。
モデルの動作に対する影響をテストするために、モデルの特定の機能やパターンに介入 (変更または操作) しようとすると、分布のシフトが導入される場合があります。大幅な分布の変化は不安定な動作を引き起こす可能性がありますが、なぜそれが偽の解釈可能性アーティファクトを引き起こさないのでしょうか?
訳者注: 分布シフトとは、トレーニング データ上のモデルによって確立された統計規則と介入後のデータとの間の差異を指します。この違いにより、モデルが新しいデータ分布に適応できなくなり、不安定な動作が示される可能性があります。
幸いなことに、生物進化を研究する方法は、モデルで生成される現象のいくつかを理解するのに役立ちます。人間の尾骨と同じように、いくつかの現象はモデルのトレーニングの過程で本来の役割を失い、退化した器官のようなものになっている可能性があります。一部の現象は相互に依存している可能性があります。たとえば、動物が複雑な目を発達させる前に基本的な光感知能力を必要とするのと同じように、訓練の初期に特定の特性が出現すると、その後の他の特性の発達に影響を与える可能性があります。
また、形質間の競合によると考えられる現象もいくつかあり、たとえば、嗅覚能力が強い動物は視覚への依存度が低いため、視覚能力が弱まる可能性があります。さらに、一部の現象は、ゲノム内のジャンク DNA と同様、トレーニング プロセスの単なる副作用である可能性があり、ゲノムの大部分を占めますが、私たちの外観や機能に直接影響を与えるものではありません。
モデルのトレーニングのプロセス中に、いくつかの未使用の現象が現れることがありますが、この現象を説明する理論は数多くあります。たとえば、情報ボトルネック仮説は、トレーニングの初期段階で入力情報が記憶され、その後モデル内で圧縮され、出力に関連する情報のみが保持されると予測します。これらの初期の記憶は、目に見えないデータを処理するときに必ずしも役立つとは限りませんが、最終的に特定の出力表現を学習するためには非常に重要です。
トレーニングされたモデルの初期の動作と後期の動作は大きく異なるため、機能が縮退している可能性も考慮できます。初期のモデルはもっとシンプルでした。言語モデルを例に挙げると、初期のモデルは単純な N-gram モデルに似ていますが、後のモデルはより複雑な言語パターンを表現できるようになります。トレーニング プロセスでのこの混合は、モデルのトレーニングの重要な部分であると誤解されやすい副作用を引き起こす可能性があります。
進化の観点
トレーニング後の特徴だけからモデルの学習傾向を理解することは非常に困難です。 Lovering らの研究によると、トレーニングの開始時に特徴抽出の容易さを観察し、微調整データを分析することは、トレーニングの最後に単に分析するよりも、微調整のパフォーマンスの理解にはるかに深い影響を与えます。
言語の階層化された動作は、分析静的モデルに基づいた典型的な説明です。文構造内で互いに近い単語はモデル内でより近くに表現され、構造的により離れた単語はより遠くに表現されることが示唆されています。では、モデルが文構造の近さによって単語をグループ化していることをどのようにして知ることができるのでしょうか?
実際、初期のモデルは長短期記憶ネットワーク (LSTM) と Transformer でより多くのローカル情報をエンコードしているため、一部の言語モデルは階層的であるとより自信を持って言えます。また、これらの依存関係がいつスタックされるかについても同様です。なじみのある短いコンポーネントを階層化することで、より遠くにある依存関係を簡単に学習できるようになります。
解釈上の創造論の問題を扱っているときに、実際の事例に遭遇しました。異なるランダム シードを使用してテキスト分類器を複数回トレーニングすると、モデルがいくつかの異なるクラスターに分散していることがわかります。また、モデルの一般化動作は、モデルが損失曲面上で他のモデルとどの程度よく接続されているかを観察することで予測できることもわかりました。つまり、損失が表面のどこに現れるかによって、モデルの汎化性能が異なる可能性があります。この現象は、トレーニング中に使用されるランダム シードに関連している可能性があります。
しかし、本当にそう言えるでしょうか?クラスターが実際にモデルの初期段階に対応している場合はどうなるでしょうか?クラスターが実際にはモデルの初期段階のみを表している場合、最終的にはそれらのモデルは汎化パフォーマンスがより優れたクラスターに移行する可能性があります。したがって、この場合、観察された現象は、一部の微調整プロセスが他のプロセスよりも遅いことを示しているだけです。
トレーニングされたモデルにおける汎化動作の多様性を説明するには、トレーニングの軌跡が損失曲面上の盆地に入る可能性があることを証明する必要があります。実際、トレーニング中にいくつかのチェックポイントを調べた結果、クラスターの中心にあるモデルは、トレーニング中にクラスター内の他のモデルとのより強い接続を確立することがわかりました。ただし、一部のモデルは引き続き、より優れたクラスターに正常に移行できます。
提案
研究課題に答えるには、トレーニング プロセスを観察するだけでは十分ではありません。因果関係を探るには介入が必要です。生物学における抗生物質耐性の研究を例にとると、研究者は細菌を意図的に抗生物質にさらす必要があり、自然実験に頼ることはできません。したがって、トレーニングダイナミクスの観察に基づくステートメントには実験による確認が必要です。
すべてのステートメントでトレーニング プロセスの観察が必要なわけではありません。古代人類の目には、見るための目や血液を送り出す心臓など、多くの器官が明らかな機能を持っていました。自然言語処理 (NLP) の分野では、静的モデルを分析することで、特定の属性の存在下で特定のニューロンが発火する、またはモデル内で特定の種類の情報がまだ利用可能であるなど、単純な解釈を行うことができます。
ただし、トレーニング プロセスを観察することで、静的モデルで行われた多くの観察の意味を明らかにすることができます。これは、すべての問題でトレーニング プロセスの観察が必要なわけではありませんが、多くの場合、観察を理解するためにトレーニング プロセスを理解することが役立つことを意味します。
アドバイスはシンプルです。トレーニングされたモデルを調査および分析するときは、トレーニング プロセスの最終結果だけに注目しないでください。代わりに、トレーニング中に複数の中間チェックポイントに分析を適用する必要があります。モデルを微調整するときは、トレーニングの初期と後期にいくつかのポイントをチェックします。トレーニング中にモデルの動作の変化を観察することは重要です。これは、研究者がモデル戦略が合理的かどうかをより深く理解し、トレーニングの初期に何が起こったかを観察した後にモデル戦略を評価するのに役立ちます。
参考リンク:https://thegradient.pub/interpretability-creationism/
以上がSGD の優秀性がもたらすディープラーニングの重要性の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

1950 年代に人工知能 (AI) が誕生しました。そのとき、研究者たちは、機械が思考などの人間と同じようなタスクを実行できることを発見しました。その後、1960 年代に米国国防総省は人工知能に資金を提供し、さらなる開発のために研究所を設立しました。研究者たちは、宇宙探査や極限環境での生存など、多くの分野で人工知能の応用を見出しています。宇宙探査は、地球を超えた宇宙全体を対象とする宇宙の研究です。宇宙は地球とは条件が異なるため、極限環境に分類されます。宇宙で生き残るためには、多くの要素を考慮し、予防策を講じる必要があります。科学者や研究者は、宇宙を探索し、あらゆるものの現状を理解することが、宇宙の仕組みを理解し、潜在的な環境危機に備えるのに役立つと信じています。

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

翻訳者 | Li Rui によるレビュー | 今日、人工知能 (AI) および機械学習 (ML) モデルはますます複雑になっており、これらのモデルによって生成される出力はブラックボックスになっており、関係者に説明することができません。 Explainable AI (XAI) は、利害関係者がこれらのモデルがどのように機能するかを理解できるようにし、これらのモデルが実際に意思決定を行う方法を確実に理解できるようにし、AI システムの透明性、信頼性、およびこの問題を解決するための説明責任を確保することで、この問題を解決することを目指しています。この記事では、さまざまな説明可能な人工知能 (XAI) 手法を検討して、その基礎となる原理を説明します。説明可能な AI が重要であるいくつかの理由 信頼と透明性: AI システムが広く受け入れられ、信頼されるためには、ユーザーは意思決定がどのように行われるかを理解する必要があります

機械学習の分野における Go 言語の応用可能性は次のとおりです。 同時実行性: 並列プログラミングをサポートし、機械学習タスクにおける計算量の多い操作に適しています。効率: ガベージ コレクターと言語機能により、大規模なデータ セットを処理する場合でもコードの効率が保証されます。使いやすさ: 構文が簡潔なので、機械学習アプリケーションの学習と作成が簡単です。

MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。
