Python を使用したデータ クリーニングの完全ガイド
データ サイエンスの次の有名な引用を聞いたことがあるでしょう:
データ サイエンス プロジェクトでは、時間の 80% がデータ処理に費やされます。
聞いたことがない場合は、データ クリーニングはデータ サイエンス ワークフローの基礎であることを覚えておいてください。機械学習モデルは、提供されたデータに基づいて実行されます。乱雑なデータはパフォーマンスの低下や不正確な結果につながる可能性がありますが、良好なモデルのパフォーマンスの前提条件となるのはクリーンなデータです。もちろん、データがきれいだからといって常に優れたパフォーマンスが得られるわけではなく、モデル (残り 20%) を正しく選択することも重要ですが、データがきれいでなければ、最も強力なモデルであっても期待されるレベルを達成することはできません。
この記事では、データ クリーニングで解決する必要がある問題をリストし、考えられる解決策を示します。この記事を通じて、データ クリーニングを段階的に実行する方法を学ぶことができます。
欠損値
データ セットに欠損データが含まれている場合、埋める前にデータ分析を実行できます。空のセルの位置自体から、いくつかの有用な情報が得られるからです。例:
- NA 値は、データ セットの末尾または中央にのみ表示されます。これは、データ収集プロセス中に技術的な問題が発生する可能性があることを意味します。特定のサンプル シーケンスのデータ収集プロセスを分析し、問題の原因を特定する必要がある場合があります。
- 列内の NA の数が 70 ~ 80% を超える場合、その列を削除できます。
- NA 値がフォーム内のオプションの質問である列にある場合、その列をユーザーが回答した (1) または回答しなかった (0) として追加コード化できます。
missingno この Python ライブラリは、上記の状況を確認するために使用でき、非常に簡単に使用できます。たとえば、下の図の白い線は NA:
import missingno as msno msno.matrix(df)
欠損値を埋めるには、次のような多くの方法があります。
- 平均、中央値、最頻値
- kNN
- ゼロ
さまざまな方法にはそれぞれ長所と短所があり、すべての状況で機能する「最良の」技術はありません。詳細については、以前に公開された記事を参照してください。
外れ値
外れ値は、データ セット内の他の点と比較して非常に大きい値または非常に小さい値です。それらの存在は、数学モデルのパフォーマンスに大きな影響を与えます。この簡単な例を見てみましょう:
左側のグラフには外れ値がなく、線形モデルはデータ ポイントに非常によく適合しています。右側の画像には外れ値があります。モデルがデータセットのすべてのポイントをカバーしようとすると、この外れ値の存在によってモデルの適合方法が変化し、モデルが少なくとも半分のポイントに適合しなくなります。
外れ値については、異常を判断する方法を導入する必要があり、これには数学的な観点から何が最大か最小かを明確にする必要があります。
Q3 1.5 x IQR より大きい値、または Q1-1.5 x IQR より小さい値は、外れ値と見なすことができます。 IQR (四分位範囲) は Q3 と Q1 の差です (IQR = Q3-Q1)。
次の関数を使用して、データ セット内の外れ値の数を確認できます。
def number_of_outliers(df): df = df.select_dtypes(exclude = 'object') Q1 = df.quantile(0.25) Q3 = df.quantile(0.75) IQR = Q3 - Q1 return ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()
外れ値に対処する 1 つの方法は、外れ値を Q3 または Q1 と等しくすることです。以下の lower_upper_range 関数は、pandas および numpy ライブラリを使用して、その外側に外れ値のある範囲を見つけ、clip 関数を使用して値を指定された範囲にクリップします。
def lower_upper_range(datacolumn): sorted(datacolumn) Q1,Q3 = np.percentile(datacolumn , [25,75]) IQR = Q3 - Q1 lower_range = Q1 - (1.5 * IQR) upper_range = Q3 + (1.5 * IQR) return lower_range,upper_range for col in columns: lowerbound,upperbound = lower_upper_range(df[col]) df[col]=np.clip(df[col],a_min=lowerbound,a_max=upperbound)
データの不整合
外れ値の問題は数値の特徴に関するものです。次に、文字タイプ (カテゴリ) の特徴を見てみましょう。データに一貫性がないということは、列の一意のクラスの表現が異なることを意味します。たとえば、性別の列には、m/f と男性/女性の両方があります。この場合、クラスは 4 つになりますが、実際には 2 つのクラスがあります。
現時点では、この問題を自動的に解決する方法はないため、手動で分析する必要があります。この分析にはパンダ独自の関数が用意されており、自動車ブランドの例を見てみましょう:
df['CarName'] = df['CarName'].str.split().str[0] print(df['CarName'].unique())
maxda-mazda、Nissan-nissan、porcshce-porsche、toyouta -トヨタなどを併合することができます。
df.loc[df['CarName'] == 'maxda', 'CarName'] = 'mazda' df.loc[df['CarName'] == 'Nissan', 'CarName'] = 'nissan' df.loc[df['CarName'] == 'porcshce', 'CarName'] = 'porsche' df.loc[df['CarName'] == 'toyouta', 'CarName'] = 'toyota' df.loc[df['CarName'] == 'vokswagen', 'CarName'] = 'volkswagen' df.loc[df['CarName'] == 'vw', 'CarName'] = 'volkswagen'
無効なデータ
無効なデータは、論理的にまったく正しくない値を表します。たとえば、
- 人の年齢は 560 歳です;
- ある操作には -8 時間かかりました;
- 人の身長は 1200 cm など;
数値列の場合、pandas の description 関数を使用してそのようなエラーを特定できます:
df.describe()
無効なデータには 2 つの理由が考えられます:
1. データ収集エラー: 入力時に範囲を判断できなかった例: 身長を入力する際、179cm を誤って 1799cm と入力しましたが、プログラムはデータの範囲を判断しませんでした。
2. データ操作エラー
数据集的某些列可能通过了一些函数的处理。 例如,一个函数根据生日计算年龄,但是这个函数出现了BUG导致输出不正确。
以上两种随机错误都可以被视为空值并与其他 NA 一起估算。
重复数据
当数据集中有相同的行时就会产生重复数据问题。 这可能是由于数据组合错误(来自多个来源的同一行),或者重复的操作(用户可能会提交他或她的答案两次)等引起的。 处理该问题的理想方法是删除复制行。
可以使用 pandas duplicated 函数查看重复的数据:
df.loc[df.duplicated()]
在识别出重复的数据后可以使用pandas 的 drop_duplicate 函数将其删除:
df.drop_duplicates()
数据泄漏问题
在构建模型之前,数据集被分成训练集和测试集。 测试集是看不见的数据用于评估模型性能。 如果在数据清洗或数据预处理步骤中模型以某种方式“看到”了测试集,这个就被称做数据泄漏(data leakage)。 所以应该在清洗和预处理步骤之前拆分数据:
以选择缺失值插补为例。数值列中有 NA,采用均值法估算。在 split 前完成时,使用整个数据集的均值,但如果在 split 后完成,则使用分别训练和测试的均值。
第一种情况的问题是,测试集中的推算值将与训练集相关,因为平均值是整个数据集的。所以当模型用训练集构建时,它也会“看到”测试集。但是我们拆分的目标是保持测试集完全独立,并像使用新数据一样使用它来进行性能评估。所以在操作之前必须拆分数据集。
虽然训练集和测试集分别处理效率不高(因为相同的操作需要进行2次),但它可能是正确的。因为数据泄露问题非常重要,为了解决代码重复编写的问题,可以使用sklearn 库的pipeline。简单地说,pipeline就是将数据作为输入发送到的所有操作步骤的组合,这样我们只要设定好操作,无论是训练集还是测试集,都可以使用相同的步骤进行处理,减少的代码开发的同时还可以减少出错的概率。
以上がPython を使用したデータ クリーニングの完全ガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

MINIOオブジェクトストレージ:CENTOSシステムの下での高性能展開Minioは、Amazons3と互換性のあるGO言語に基づいて開発された高性能の分散オブジェクトストレージシステムです。 Java、Python、JavaScript、Goなど、さまざまなクライアント言語をサポートしています。この記事では、CentosシステムへのMinioのインストールと互換性を簡単に紹介します。 Centosバージョンの互換性Minioは、Centos7.9を含むがこれらに限定されない複数のCentosバージョンで検証されています。

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。

PytorchをCentosシステムにインストールする場合、適切なバージョンを慎重に選択し、次の重要な要因を検討する必要があります。1。システム環境互換性:オペレーティングシステム:Centos7以上を使用することをお勧めします。 Cuda and Cudnn:PytorchバージョンとCudaバージョンは密接に関連しています。たとえば、pytorch1.9.0にはcuda11.1が必要ですが、pytorch2.0.1にはcuda11.3が必要です。 CUDNNバージョンは、CUDAバージョンとも一致する必要があります。 Pytorchバージョンを選択する前に、互換性のあるCUDAおよびCUDNNバージョンがインストールされていることを確認してください。 Pythonバージョン:Pytorch公式支店
