一変量データ分析は、変化する 1 つの変数のみに適した単純なタイプの分析です。主にデータの記述とパターン認識に焦点を当てますが、原因や関係には焦点を当てません。情報は単一の変数を扱うため、最も単純なタイプの分析です。
一変量分析は、単一の変数/特徴を分析するために使用されます。目標は、存在する可能性のあるパターンを調べながら、データを取得して説明し、要約することです。単変量分析では、データセット内の各変数を個別に調査し、カテゴリ変数と数値変数の両方を使用できます。
中心傾向 (平均、中央値、最頻値) とデータの分散または分布 (範囲、最小値、最大値、四分位数、分散、標準偏差) の尺度は、パターンを説明するのに役立ちます。そういったデータ。さらに、度数分布表、ヒストグラム、円グラフ、度数多角形、棒グラフなどのツールを使用して、これらのパターンを示すことができます。
#二重変数 二変量データには 2 つの変数が含まれます。二変量分析は、2 つの変数間の関係を判断することを目的として、原因と関係に焦点を当てます。 比較、相関関係、原因、説明はすべて、二変量データ分析の一部です。変数の 1 つは独立しており、もう 1 つは依存しています。これらの変数は、データをよりよく理解するためにチャートの X 軸と Y 軸にプロットされることがよくあります。 多重共線性 多重共線性 (共線性とも呼ばれる) は、回帰モデルの特性である変数の線形性が高い統計現象です。別の特徴変数との相関関係。 2 つ以上の変数が完全に相関している場合、これは共線性と呼ばれます。 独立変数の相関性が高い場合、1 つの変数の変化が他の変数の変化を引き起こし、モデルの結果が大きく変動します。データまたはモデルがわずかに変更されると、モデルの結果は不安定になり、大きく変動します。多重共線性は次の問題を引き起こす可能性があります。 モデルが毎回異なる結果を提供する場合、モデルの重要な変数のリストを決定することが困難になります。 係数推定値が不安定になるため、モデルの解釈が困難になります。言い換えれば、予測子が 1 単位変化した場合、出力がどの程度変化するかを判断する方法はありません。 モデルの不安定性により、オーバーフィッティングが発生する可能性があります。モデルを別のデータセットに適用すると、精度はトレーニング データセットよりも大幅に低くなります。 軽度または中程度の共線性が発生するだけであれば、状況によってはモデルにとって問題にならない可能性があります。ただし、重大な共線性の問題がある場合は、その問題を解決することをお勧めします。以上が機械学習における一変量、二変量、および多重共線性の問題を分析するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。