ソフトウェアアーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴-AI-php.cn

機械学習の分野で、次の 5 つの落とし穴を踏んだことがありますか?

1. 必要な場合にはデータ正規化は使用されません

2. 機能は多ければ多いほど良いと考える

3. 外挿が必要な場合は、ツリーベースのモデルを使用します

4. 必要のない場合はデータ正規化を使用する

5. トレーニングセットと検証/テストセット間の情報漏洩

ホームページ

テクノロジー周辺機器

ソフトウェアアーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴

王林

Apr 11, 2023 pm 07:31 PM

機械学習データ

データサイエンスと機械学習の人気はますます高まっており、この分野に携わる人々の数は日々増加しています。これは、最初の機械学習モデルの構築にあまり経験のないデータサイエンティストがたくさんいることを意味しており、ここで間違いが発生する可能性があります。

最近、ソフトウェアアーキテクト、データサイエンティスト、そして Kaggle マスターである Agnis Liukis が、機械学習における最も一般的な初心者の間違いを解決する方法について説明した記事を書きました。初心者はそれらを理解して避けてください。

ソフトウェアアーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴

Agnis Liukis はソフトウェアアーキテクチャと開発において 15 年以上の経験があり、 Java、JavaScript、Spring Boot、React.JS、Python などの言語に精通しています。また、Liukis はデータサイエンスや機械学習にも興味があり、Kaggle コンペティションに何度も参加して好成績を収め、Kaggle コンペティションのマスターレベルに到達しています。

この記事の内容は次のとおりです:

機械学習の分野で、次の 5 つの落とし穴を踏んだことがありますか?

1. 必要な場合にはデータ正規化は使用されません

データを正規化し、特徴を取得してモデルに入力すると、モデルに予測をさせるのが非常に簡単になります。ただし、場合によっては、この単純なアプローチでは非常に重要な部分が欠けているため、残念な結果になる可能性があります。

線形回帰、従来のニューラルネットワークなど、一部のタイプのモデルではデータの正規化が必要です。このタイプのモデルは、特徴値を使用してトレーニング値の重みを乗算します。正規化されていない特徴の場合、ある特徴値の可能な範囲は、別の特徴値の可能な範囲と異なる場合があります。

一方の特徴の値が [0, 0.001] の範囲内にあり、もう一方の特徴の値が [100000, 200000] の範囲内にあるとします。 2 つの特徴を同等に重要にするモデルの場合、最初の特徴の重みは 2 番目の特徴の重みの 1 億倍になります。重みが大きいと、外れ値がある場合など、モデルに深刻な問題が発生する可能性があります。さらに、重みが大きいということはその特徴が重要であることを意味する場合もあれば、単にその特徴量が小さいことを意味する場合もあるため、さまざまな特徴の重要度を推定することは困難になります。

正規化後、すべての特徴の値は同じ範囲内 (通常は [0, 1] または [-1, 1]) になります。この場合、重みは同様の範囲内になり、各特徴の実際の重要性に密接に対応します。

全体として、必要に応じてデータ正規化を使用すると、より適切で正確な予測が得られます。

2. 機能は多ければ多いほど良いと考える

一部の人々は、モデルが自動的に選択して使用するものと考え、すべての機能を追加するのが良い考えであると考えるかもしれません。最高の機能。実際、このアイデアを実現するのは困難です。

モデルの特徴が多いほど、過学習のリスクが高くなります。完全にランダムなデータであっても、モデルはいくつかの特徴 (シグナル) を見つけることができますが、それらが弱い場合もあれば強い場合もあります。もちろん、ランダムノイズには実際の信号は存在しません。ただし、ノイズの多い列が十分にある場合は、モデルが検出された障害信号に基づいてそれらの一部を使用することが可能です。これが発生すると、モデル予測はランダムノイズに部分的に基づいているため、品質が低下します。

特徴選択の実行に役立つテクニックはたくさんあります。ただし、持っているすべての機能と、その機能がモデルに役立つ理由を説明する必要があることを覚えておく必要があります。

3. 外挿が必要な場合は、ツリーベースのモデルを使用します

ツリーベースのモデルは使いやすく強力であるため、人気があります。ただし、場合によっては、ツリーベースのモデルを使用することが間違っている可能性があります。

ツリーベースのモデルは外挿できません。これらのモデルの予測値がトレーニングデータの最大値より大きくなることはなく、トレーニングの出力値がこれより小さくなることはありません。最小値、予測値、

タスクによっては、推定する能力が非常に重要になる場合があります。たとえば、モデルが株価を予測する場合、株価は将来これまでよりも高くなる可能性があります。この場合、ツリーベースのモデルの予測は過去の最高価格をほぼ超えるため、ツリーベースのモデルは直接役に立ちません。

この問題には複数の解決策がありますが、1 つの解決策は、値を直接予測するのではなく、変化や差異を予測することです。別の解決策は、そのようなタスクにさまざまなタイプのモデルを使用することです。線形回帰またはニューラルネットワークは外挿を実行できます。

4. 必要のない場合はデータ正規化を使用する

前の記事ではデータ正規化の必要性について説明しましたが、常にそうとは限りません。ツリーベースのモデルにはデータは必要ありません。正規化されました。 Keras ライブラリの BatchNormalization 操作など、一部のネットワークにはすでに内部に正規化層が含まれているため、ニューラルネットワークでは明示的な正規化が必要ない場合もあります。

場合によっては、線形回帰でもデータの正規化が必要ない場合があります。これは、すべての特徴がすでに同様の値の範囲内にあり、同じ意味を持っていることを意味します。たとえば、モデルが時系列データに適用され、すべての特徴が同じパラメーターの履歴値である場合です。

5. トレーニングセットと検証/テストセット間の情報漏洩

データ漏洩の原因は人々が考えているよりも簡単であるため、次のコードスニペットを考慮してください:

ソフトウェアアーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴

データ漏洩の特徴の例

実際の両方の特徴 ( sum_feature と diff_feature) が正しくありません。トレーニング/テストセットに分割した後、トレーニングデータを含む部分にはテストからの情報が含まれるため、情報が漏洩しています。これにより、検証スコアは高くなりますが、実際のデータモデルに適用するとパフォーマンスが低下します。

正しいアプローチは、最初にトレーニングセット/テストセットを分離し、その後でのみ特徴生成関数を適用することです。一般に、トレーニングセットとテストセットを別々に処理するのは、優れた特徴エンジニアリングパターンです。

場合によっては、2 つの間で何らかの情報を渡す必要がある場合があります。たとえば、テストセットとトレーニングセットで同じ StandardScaler を使用したい場合があります。

全体として、間違いから学ぶのは良いことです。上記の間違いの例が役立つことを願っています。

以上がソフトウェアアーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1659

CakePHP チュートリアル

1416

Laravel チュートリアル

1310

PHP チュートリアル

1259

C# チュートリアル

1233

Related knowledge

この記事では、SHAP: 機械学習のモデルの説明について説明します。 Jun 01, 2024 am 10:58 AM

機械学習とデータサイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

学習曲線を通じて過学習と過小学習を特定する Apr 29, 2024 pm 06:50 PM

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニングセットスコアとひどい検証セット/テストスコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニングセットとしての小さなデータセットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

C++ での機械学習アルゴリズムの実装: 一般的な課題と解決策 Jun 03, 2024 pm 01:25 PM

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマートポインター、最新のスレッドライブラリ、SIMD 命令、サードパーティライブラリの使用、コーディングスタイルガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

あなたが知らない機械学習の 5 つの流派 Jun 05, 2024 pm 08:51 PM

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

アメリカ空軍が初のAI戦闘機を公開し注目を集める！大臣はプロセス全体を通じて干渉することなく個人的にテストを実施し、10万行のコードが21回にわたってテストされました。 May 07, 2024 pm 05:00 PM

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機（VISTA）で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランクケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、

See all articles

ソフトウェア アーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴

機械学習の分野で、次の 5 つの落とし穴を踏んだことがありますか?

1. 必要な場合にはデータ正規化は使用されません

2. 機能は多ければ多いほど良いと考える

3. 外挿が必要な場合は、ツリーベースのモデルを使用します

4. 必要のない場合はデータ正規化を使用する

5. トレーニング セットと検証/テスト セット間の情報漏洩

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

ソフトウェアアーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴

5. トレーニングセットと検証/テストセット間の情報漏洩