ソフトウェア アーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴
データ サイエンスと機械学習の人気はますます高まっており、この分野に携わる人々の数は日々増加しています。これは、最初の機械学習モデルの構築にあまり経験のないデータ サイエンティストがたくさんいることを意味しており、ここで間違いが発生する可能性があります。
最近、ソフトウェア アーキテクト、データ サイエンティスト、そして Kaggle マスターである Agnis Liukis が、機械学習における最も一般的な初心者の間違いを解決する方法について説明した記事を書きました。初心者はそれらを理解して避けてください。
Agnis Liukis はソフトウェア アーキテクチャと開発において 15 年以上の経験があり、 Java、JavaScript、Spring Boot、React.JS、Python などの言語に精通しています。また、Liukis はデータサイエンスや機械学習にも興味があり、Kaggle コンペティションに何度も参加して好成績を収め、Kaggle コンペティションのマスターレベルに到達しています。
この記事の内容は次のとおりです:
機械学習の分野で、次の 5 つの落とし穴を踏んだことがありますか?
1. 必要な場合にはデータ正規化は使用されません
データを正規化し、特徴を取得してモデルに入力すると、モデルに予測をさせるのが非常に簡単になります。ただし、場合によっては、この単純なアプローチでは非常に重要な部分が欠けているため、残念な結果になる可能性があります。
線形回帰、従来のニューラル ネットワークなど、一部のタイプのモデルではデータの正規化が必要です。このタイプのモデルは、特徴値を使用してトレーニング値の重みを乗算します。正規化されていない特徴の場合、ある特徴値の可能な範囲は、別の特徴値の可能な範囲と異なる場合があります。
一方の特徴の値が [0, 0.001] の範囲内にあり、もう一方の特徴の値が [100000, 200000] の範囲内にあるとします。 2 つの特徴を同等に重要にするモデルの場合、最初の特徴の重みは 2 番目の特徴の重みの 1 億倍になります。重みが大きいと、外れ値がある場合など、モデルに深刻な問題が発生する可能性があります。さらに、重みが大きいということはその特徴が重要であることを意味する場合もあれば、単にその特徴量が小さいことを意味する場合もあるため、さまざまな特徴の重要度を推定することは困難になります。
正規化後、すべての特徴の値は同じ範囲内 (通常は [0, 1] または [-1, 1]) になります。この場合、重みは同様の範囲内になり、各特徴の実際の重要性に密接に対応します。
全体として、必要に応じてデータ正規化を使用すると、より適切で正確な予測が得られます。
2. 機能は多ければ多いほど良いと考える
一部の人々は、モデルが自動的に選択して使用するものと考え、すべての機能を追加するのが良い考えであると考えるかもしれません。最高の機能。実際、このアイデアを実現するのは困難です。
モデルの特徴が多いほど、過学習のリスクが高くなります。完全にランダムなデータであっても、モデルはいくつかの特徴 (シグナル) を見つけることができますが、それらが弱い場合もあれば強い場合もあります。もちろん、ランダム ノイズには実際の信号は存在しません。ただし、ノイズの多い列が十分にある場合は、モデルが検出された障害信号に基づいてそれらの一部を使用することが可能です。これが発生すると、モデル予測はランダム ノイズに部分的に基づいているため、品質が低下します。
特徴選択の実行に役立つテクニックはたくさんあります。ただし、持っているすべての機能と、その機能がモデルに役立つ理由を説明する必要があることを覚えておく必要があります。
3. 外挿が必要な場合は、ツリーベースのモデルを使用します
ツリーベースのモデルは使いやすく強力であるため、人気があります。ただし、場合によっては、ツリーベースのモデルを使用することが間違っている可能性があります。
ツリーベースのモデルは外挿できません。これらのモデルの予測値がトレーニング データの最大値より大きくなることはなく、トレーニングの出力値がこれより小さくなることはありません。最小値、予測値、
タスクによっては、推定する能力が非常に重要になる場合があります。たとえば、モデルが株価を予測する場合、株価は将来これまでよりも高くなる可能性があります。この場合、ツリーベースのモデルの予測は過去の最高価格をほぼ超えるため、ツリーベースのモデルは直接役に立ちません。
この問題には複数の解決策がありますが、1 つの解決策は、値を直接予測するのではなく、変化や差異を予測することです。別の解決策は、そのようなタスクにさまざまなタイプのモデルを使用することです。線形回帰またはニューラル ネットワークは外挿を実行できます。
4. 必要のない場合はデータ正規化を使用する
前の記事ではデータ正規化の必要性について説明しましたが、常にそうとは限りません。ツリーベースのモデルにはデータは必要ありません。正規化されました。 Keras ライブラリの BatchNormalization 操作など、一部のネットワークにはすでに内部に正規化層が含まれているため、ニューラル ネットワークでは明示的な正規化が必要ない場合もあります。
場合によっては、線形回帰でもデータの正規化が必要ない場合があります。これは、すべての特徴がすでに同様の値の範囲内にあり、同じ意味を持っていることを意味します。たとえば、モデルが時系列データに適用され、すべての特徴が同じパラメーターの履歴値である場合です。
5. トレーニング セットと検証/テスト セット間の情報漏洩
データ漏洩の原因は人々が考えているよりも簡単であるため、次のコード スニペットを考慮してください:
データ漏洩の特徴の例
実際の両方の特徴 ( sum_feature と diff_feature) が正しくありません。トレーニング/テスト セットに分割した後、トレーニング データを含む部分にはテストからの情報が含まれるため、情報が漏洩しています。これにより、検証スコアは高くなりますが、実際のデータ モデルに適用するとパフォーマンスが低下します。
正しいアプローチは、最初にトレーニング セット/テスト セットを分離し、その後でのみ特徴生成関数を適用することです。一般に、トレーニング セットとテスト セットを別々に処理するのは、優れた特徴エンジニアリング パターンです。
場合によっては、2 つの間で何らかの情報を渡す必要がある場合があります。たとえば、テスト セットとトレーニング セットで同じ StandardScaler を使用したい場合があります。
全体として、間違いから学ぶのは良いことです。上記の間違いの例が役立つことを願っています。
以上がソフトウェア アーキテクトとしての 15 年の経験の要約: ML の分野で初心者が遭遇する 5 つの落とし穴の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











機械学習とデータ サイエンスの分野では、モデルの解釈可能性が常に研究者や実務家に焦点を当ててきました。深層学習やアンサンブル手法などの複雑なモデルが広く適用されるようになったことで、モデルの意思決定プロセスを理解することが特に重要になってきました。 Explainable AI|XAI は、モデルの透明性を高めることで、機械学習モデルに対する信頼と自信を構築するのに役立ちます。モデルの透明性の向上は、複数の複雑なモデルの普及や、モデルを説明するための意思決定プロセスなどの方法によって実現できます。これらの方法には、特徴重要度分析、モデル予測間隔推定、ローカル解釈可能性アルゴリズムなどが含まれます。特徴重要度分析では、入力特徴に対するモデルの影響度を評価することで、モデルの意思決定プロセスを説明できます。モデルの予測間隔の推定

この記事では、学習曲線を通じて機械学習モデルの過学習と過小学習を効果的に特定する方法を紹介します。過小適合と過適合 1. 過適合 モデルがデータからノイズを学習するためにデータ上で過学習されている場合、そのモデルは過適合していると言われます。過学習モデルはすべての例を完璧に学習するため、未確認の新しい例を誤って分類してしまいます。過適合モデルの場合、完璧/ほぼ完璧なトレーニング セット スコアとひどい検証セット/テスト スコアが得られます。若干修正: 「過学習の原因: 複雑なモデルを使用して単純な問題を解決し、データからノイズを抽出します。トレーニング セットとしての小さなデータ セットはすべてのデータを正しく表現できない可能性があるため、2. 過学習の Heru。」

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

C++ の機械学習アルゴリズムが直面する一般的な課題には、メモリ管理、マルチスレッド、パフォーマンスの最適化、保守性などがあります。解決策には、スマート ポインター、最新のスレッド ライブラリ、SIMD 命令、サードパーティ ライブラリの使用、コーディング スタイル ガイドラインの遵守、自動化ツールの使用が含まれます。実践的な事例では、Eigen ライブラリを使用して線形回帰アルゴリズムを実装し、メモリを効果的に管理し、高性能の行列演算を使用する方法を示します。

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
