スチューデント化残差は、データ内の潜在的な外れ値を特定するために回帰分析でよく使用されます。外れ値は、データの全体的な傾向から大きく異なる点であり、近似されたモデルに大きな影響を与える可能性があります。外れ値を特定して分析することで、データの根本的なパターンをより深く理解し、モデルの精度を向上させることができます。この記事では、スチューデント化残差とそれを Python で実装する方法について詳しく見ていきます。
「スチューデント化残差」という用語は、標準偏差を推定値で割った特定のクラスの残差を指します。回帰分析の残差は、応答変数の観測値とモデルによって生成された期待値との差を表します。近似モデルに大きな影響を与える可能性のあるデータ内の外れ値を見つけるために、スチューデント化残差が使用されました。
通常、スチューデント化残差の計算には次の式が使用されます -
リーリーここで、「残差」は観測された応答値と期待される応答値の差を指し、「残差標準偏差」は残差標準偏差の推定値を指し、「hii」は各データ ポイントの値を指します。要素。
statsmodels パッケージを使用して、Python でスチューデント化残差を計算できます。例として、次のことを考えてみましょう -
###文法### リーリーここで、「評価」と「スコア」は単純な線形回帰を指します。
###アルゴリズム###
データセットを作成します。
データセットに対して単純な線形回帰モデルを実行します。
スチューデント化残差を計算します。
スチューデント化された残差を出力します。
これは、scikit-posthocs ライブラリを使用してダンのテストを実行するデモンストレーションです -
リーリースチューデント化された残差に基づいて予測子の値を迅速にプロットすることもできます -
###文法### リーリーここでは、matpotlib ライブラリを使用して、color = 'black'、lifestyle = '--' でグラフを描画します
###アルゴリズム###
予測変数とスチューデント化残差の散布図を作成する
以上がPython でスチューデント化残差を計算するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。