はじめに
こんにちは、今日は特徴量エンジニアリングについてわかりやすく説明します。取り上げるのは難しいトピックのように思えますが、この記事の最後で少なくともその基本を理解していただければ幸いです。
Wikipedia より、特徴エンジニアリング は、データを使用してトレーニング セットに含まれない新しい変数を作成する機械学習手法です。
教師あり学習と教師なし学習の両方の新しい機能を生成できます。
モデルの精度を向上させながら、データ変換をより簡単かつ迅速に行います。
特徴量エンジニアリング手法
-
データ クリーニング: これはデータを整理しています。不足している情報に対処し、エラーを修正し、不一致をすべて削除します。
-
データ変換: これはデータの再形成または調整です。例: 大きな数値をスケールダウンしたり、特定の範囲内に収まるようにデータを正規化したりします。
重要な要素は、データの意味を変えずにこれらの変更を行うことです。
-
特徴抽出: ここでは、既存のデータを調査し、新しい洞察を提供できる新しい特徴を作成します。これにより、有用な詳細を失うことなく、モデルがよりシンプルかつ高速になります。
-
特徴選択: ターゲットの予測に最も密接に関連するデータを選択することが含まれます。これにより、不要な情報が削除され、モデルがより焦点を絞ったものになります。
-
機能の反復: これはすべて試行錯誤です。特定の機能を追加または削除し、それらがモデルにどのような影響を与えるかをテストし、モデルのパフォーマンスを向上させる機能を保持するプロセス。
機械学習の機能の種類
-
数値的特徴: これらは測定可能な数値であり、本質的に単純かつ連続的です。例: 年齢。
-
カテゴリ特徴: これらはカテゴリ特徴です。例、目の色。
-
時系列特徴: 長期間にわたって記録されたデータ。例;株。
-
テキスト機能: これらは単語またはテキストから作成された機能です。例: お客様のレビュー
結論
用語については十分に説明できたと思いますが、初心者が理論的に知っておくべきことはこれだけだと思います。次回、特徴量エンジニアリングについて説明するときは、より実践的な内容になります。
次回まで!
以上が特徴量エンジニアリングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。