Python で Grubbs テストを実行する方法
######導入###
グラブス検定は、データセット内の外れ値を検出するために使用される統計的仮説検定方法です。外れ値は、データ分布に割り当てられる観測値であり、異常とも呼ばれます。外れ値を含むデータセットは、正規分布/ガウス分布のデータよりも過学習の影響を受けやすい傾向があります。したがって、機械学習モデリングの前に外れ値に対処する必要があります。処理する前に、データセット内の外れ値を検出して特定する必要があります。最も一般的な外れ値検出手法は、QQPlot、四分位範囲、および Grubbs 統計検定です。ただし、この記事では、外れ値を検出するための Grubbs テストについてのみ説明します。 Grubbs テストとは何か、およびそれを Python で実装する方法を学びます。
外れ値とは何ですか?
外れ値は、他のデータ値から数値的に大きく離れたデータ観測値です。これらの値は正規分布データの範囲外です。正規分布を実現するには、データ セットには、最初の標準偏差のレコードの 67%、2 番目の標準偏差のデータの 95%、および 3 番目の標準偏差のポイントの 99.7% が含まれている必要があります。言い換えれば、データ ポイントは第 1 四分位範囲と第 3 四分位範囲の間にある必要があります。第 1 四分位未満および第 3 四分位を超えるレコードは外れ値または外れ値と見なされます。
グラブス統計的仮説検定
他の統計的仮説検定と同様に、グラブス検定でも帰無仮説 (H0) または対立仮説 (H1) を承認または拒否できます。グラブス テストは、データ セット内の外れ値を検出するテストです。
グラブス検定は 2 つの方法で実行できます:
片側検定
および両側検定 (単変量データセットまたは少なくとも 7 つの変数分布を持つほぼ正規のサンプルの場合) 。このテストは、極端なスチューデント化偏差テストまたは最大正規化残差テストとも呼ばれます。 Grubbs テストでは次の仮定が使用されます -
Null (H0): データセットには外れ値がありません。- 代替 (H1): データ セットには外れ値が 1 つだけあります。
-
外れ値ライブラリと Smirnov_grubbs
まず、次のコマンドを使用して outlier_utils ライブラリをインストールしましょう。
リーリー
次に、外れ値を含むデータセットを作成し、Grubbs テストを実行してみましょう。両面グラブテスト
###文法### リーリー
パラメータdata
- データ値の数値ベクトル。alpha - テストの有意水準。
イラストこのメソッドでは、Grubb のテストを実行するために、ユーザーは outlier パッケージの smirnov_grubbs.test() 関数を使用し、必要なデータを入力として渡す必要があります。 ###例### リーリー ###出力### リーリー
上記のコードは、ライブラリとデータをロードすることから始まり、最後に「test」メソッドを使用してこのデータに対して Grubbs テストを実行します。このテストでは、両側 (左と右) の外れ値、または第 1 四分位以下および第 3 四分位以上の値が検出されます。データには外れ値が 1 つだけ (40) ありましたが、これは Grubbs の検定を使用して削除されました。片側グラブステスト
シナックス
リーリー
イラストこのメソッドでは、ユーザーは
grubbs.min_test()
関数を呼び出して、提供されたデータセットから最小異常値を取得するか、grubbs.max_test()
関数を呼び出す必要があります。提供されたデータセットから最小外れ値を取得する関数 データセット内の最大外れ値を取得して、片側グラブス検定を取得します。###例### リーリー ###出力### リーリー
片側 Grubbs 検定は、第 1 四分位以下または第 3 四分位以上の外れ値を検出します。 min_test メソッドはデータの最小側から外れ値を削除し、max_test メソッドはデータの上部から外れ値を削除することがわかります。式の実装
ここでは、Python を使用して次の Grubbs テスト式を実装します。これを実現するには、Numpy ライブラリと Scipy ライブラリを使用します。
###文法### リーリー ###アルゴリズム###実装手順は次のとおりです -
データセット値の平均を計算します。
データセット値の標準偏差を計算します。
- 同じ値のクリティカル スコアを計算します。
- 臨界値が計算値より大きい場合、データセットに外れ値はありませんが、そうでない場合は外れ値があります。 ###例### リーリー ###出力### リーリー
- Grubb テストの結果は、配列 x には外れ値がありませんが、y には外れ値が 1 つあることを示しています。
###結論は###
この記事では、Python での外れ値と Grubbs テストについて学びました。重要なポイントをいくつか挙げてこの記事を締めくくりましょう。 - 外れ値は、四分位範囲外にあるレコードです。
外れ値は、データセットの正規分布に準拠しません。
グラブス仮説統計検定を使用して外れ値を検出できます。
outlier_utils ライブラリで提供される組み込みメソッドを使用して、Grubbs テストを実行できます。
両側 Grubbs テストは、左側と右側の外れ値を検出して削除します。
ただし、片側 Grubbs 検定ではどちらの側でも外れ値が検出されます。
以上がPython で Grubbs テストを実行する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











このチュートリアルでは、Pythonを使用してZIPFの法則の統計的概念を処理する方法を示し、法律の処理時にPythonの読み取りおよび並べ替えの効率性を示します。 ZIPF分布という用語が何を意味するのか疑問に思うかもしれません。この用語を理解するには、まずZIPFの法律を定義する必要があります。心配しないでください、私は指示を簡素化しようとします。 ZIPFの法則 ZIPFの法則は単に意味します。大きな自然言語のコーパスでは、最も頻繁に発生する単語は、2番目の頻繁な単語のほぼ2倍の頻度で表示されます。 例を見てみましょう。アメリカ英語の茶色のコーパスを見ると、最も頻繁な言葉は「thであることに気付くでしょう。

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find()、find_all()、select()、およびget_text()などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案(SEL

ノイズの多い画像を扱うことは、特に携帯電話や低解像度のカメラの写真でよくある問題です。 このチュートリアルでは、OpenCVを使用してPythonの画像フィルタリング手法を調査して、この問題に取り組みます。 画像フィルタリング:強力なツール 画像フィルター

PDFファイルは、クロスプラットフォームの互換性に人気があり、オペレーティングシステム、読み取りデバイス、ソフトウェア間でコンテンツとレイアウトが一貫しています。ただし、Python Plansing Plain Text Filesとは異なり、PDFファイルは、より複雑な構造を持つバイナリファイルであり、フォント、色、画像などの要素を含んでいます。 幸いなことに、Pythonの外部モジュールでPDFファイルを処理することは難しくありません。この記事では、PYPDF2モジュールを使用して、PDFファイルを開き、ページを印刷し、テキストを抽出する方法を示します。 PDFファイルの作成と編集については、私からの別のチュートリアルを参照してください。 準備 コアは、外部モジュールPYPDF2を使用することにあります。まず、PIPを使用してインストールします。 ピップはpです

このチュートリアルでは、Redisキャッシングを活用して、特にDjangoフレームワーク内でPythonアプリケーションのパフォーマンスを向上させる方法を示しています。 Redisのインストール、Django構成、およびパフォーマンスの比較をカバーして、Beneを強調します

この記事では、深い学習のためにTensorflowとPytorchを比較しています。 関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。 特に計算グラップに関して、フレームワーク間の重要な違い

データサイエンスと処理のお気に入りであるPythonは、高性能コンピューティングのための豊富なエコシステムを提供します。ただし、Pythonの並列プログラミングは、独自の課題を提示します。このチュートリアルでは、これらの課題を調査し、グローバルな承認に焦点を当てています

このチュートリアルでは、Python 3にカスタムパイプラインデータ構造を作成し、機能を強化するためにクラスとオペレーターのオーバーロードを活用していることを示しています。 パイプラインの柔軟性は、一連の機能をデータセットに適用する能力にあります。
