pandas データのクリーニングに関する重要なヒントを明らかにします。
パンダのデータクリーニングテクニックが明らかに!
はじめに:
データ分析と機械学習において、データ クリーニングは非常に重要なステップです。これには、データをフォーマットと構造に整理するために、データ セットの前処理、変換、フィルタリングが含まれます。私たちには必要です。 Pandas は、Python で最も人気のある強力なデータ分析ライブラリの 1 つであり、豊富で柔軟なデータ クリーニング ツールと操作方法を提供します。この記事では、pandas データ クリーニングの基本的なテクニックをいくつか明らかにし、読者がこれらのテクニックをよりよく理解して適用できるように、具体的なコード例を示します。
1. pandas ライブラリとデータ セットをインポートする
開始する前に、まず pandas ライブラリをインストールする必要があります。インストールが完了したら、次のコードを使用して pandas ライブラリをインポートし、クリーンアップする必要があるデータ セットをロードできます。
import pandas as pd # 导入数据集 data = pd.read_csv('data.csv')
2. データ セットの表示
データ クリーニングを実行する前に、まずデータ セットの構造と内容を理解する必要があります。 pandas は、head()
、tail()
、shape
、info()
wait など、データセットを表示するためによく使用される関数をいくつか提供します。 。
コード例:
# 查看前五行数据 print(data.head()) # 查看后五行数据 print(data.tail()) # 查看数据集的维度 print(data.shape) # 查看数据集的基本信息 print(data.info())
3. 欠損値の処理
欠損値はデータセットでよく遭遇する問題の 1 つであり、実際のデータでは非常に一般的です。セット。 Pandas には、欠損値を処理するいくつかの方法が用意されています。欠損値を処理する一般的な方法には、削除、埋め込み、補間などがあります。
- 欠損値の削除
欠損値の削除は最も単純な処理方法の 1 つですが、使用には注意が必要です。 pandas では、dropna()
関数を使用して、欠損値を含む行または列を削除できます。
コード例:
# 删除包含缺失值的行 data.dropna(axis=0, inplace=True) # 删除包含缺失值的列 data.dropna(axis=1, inplace=True)
- 欠損値の補充
欠損値の補充は、定数または他の値を使用できるもう 1 つの一般的な処理方法です。データセット内で欠損値を埋めます。 pandas では、fillna()
関数を使用して欠損値を埋めることができます。
コード例:
# 使用0填充缺失值 data.fillna(0, inplace=True) # 使用平均值填充缺失值 data.fillna(data.mean(), inplace=True)
- 欠損値の補間
欠損値の補間は、既知のデータに基づく、より高度な処理方法です。欠損値を代入する機能。 pandas では、interpolate()
関数を使用して補間処理を実行できます。
コード例:
# 线性插值处理缺失值 data.interpolate(method='linear', inplace=True) # 拟合插值处理缺失值 data.interpolate(method='quadratic', inplace=True)
4. 重複値の処理
重複値は、データ セットのもう 1 つの一般的な問題であり、データ分析とモデリングの逸脱につながる可能性があります。 pandas は、duplicated()
や drop_duplicates()
など、重複した値を処理するための関数をいくつか提供します。
- 重複値の検索
duplicated()
関数を使用して、データ セット内の重複値を検索できます。この関数は、各要素が繰り返されるかどうかに関する情報を含む Boolean Series オブジェクトを返します。
コード例:
# 查找重复值 duplicated_data = data.duplicated() # 打印重复值 print(duplicated_data)
- 重複値の削除
drop_duplicates()
関数を使用して重複値を削除できます。データセット内。この関数は、重複排除された新しいデータ セットを返します。
コード例:
# 删除重复值 data.drop_duplicates(inplace=True)
5. 外れ値の処理
外れ値はデータセット内の異常な観測値であり、データの分布やモデルのフィッティングに悪影響を与える可能性があります。 。 Pandas は、箱ひげ図、Z スコア、IQR など、外れ値を特定して処理するためのいくつかの関数とメソッドを提供します。
- 箱ひげ図
箱ひげ図は、一般的に使用される外れ値検出方法であり、データ セットに外れ値があるかどうかを判断するために使用できます。 boxplot()
関数を使用すると、箱ひげ図を描画し、箱ひげ図内の外れ値を観察することで外れ値を特定できます。
コード例:
# 绘制箱线图 data.boxplot(column='value', figsize=(10, 6)) # 显示图像 plt.show()
- z-score
z-score は、データを標準化し、観測値の逸脱を判断するために使用できる統計的な概念です。平均から。 pandas では、zscore()
関数を使用して Z スコアを計算し、しきい値を設定して外れ値があるかどうかを判断できます。
コード例:
# 计算z-score z_scores = (data - data.mean()) / data.std() # 判断是否存在异常值 outliers = z_scores[(z_scores > 3) | (z_scores < -3)] # 显示异常值 print(outliers)
- IQR
IQR (四分位範囲) は、4 次元の計算によって計算できる計算概念です。データセットの範囲 外れ値の範囲を決定するための分位差。 pandas では、quantile()
関数を使用して四分位数を計算し、IQR 式を使用して外れ値があるかどうかを判断できます。
コード例:
# 计算四分位差 Q1 = data.quantile(0.25) Q3 = data.quantile(0.75) IQR = Q3 - Q1 # 判断是否存在异常值 outliers = data[((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)] # 显示异常值 print(outliers)
6. データ型の変換
データ型はデータセットの重要な属性であり、保存方法、計算方法、視覚化方法に関係します。データです。お待ちください。 pandas では、astype()
関数を使用してデータ型を変換できます。
コード例:
# 将字符串类型转换为整数类型 data['column'] = data['column'].astype(int) # 将浮点型转换为整数类型 data['column'] = data['column'].astype(int) # 将字符串类型转换为日期类型 data['column'] = pd.to_datetime(data['column'])
7. その他の一般的な操作
上記のデータ クリーニング手法に加えて、pandas は列名の変更など、その他の一般的に使用されるデータ クリーニング操作も提供します。 、列の分割、列の結合など。
- 列名の変更
rename()
関数を使用して、データ セット内の列の名前を変更できます。
コード例:
# 重命名列 data.rename(columns={'old_name': 'new_name'}, inplace=True)
- 列の分割
関数 str.split()
を使用して、次の内容を含む列を分割できます。 multiple 値の列が複数の列に分割されます。
コード例:
# 拆分列 new_columns = data['column'].str.split(',', expand=True) # 重新命名新列 new_columns.columns = ['column1', 'column2', 'column3'] # 合并新列到数据集 data = pd.concat([data, new_columns], axis=1)
- 列の結合
pd.merge()
関数を使用して複数の列を結合できます。データセット列。
コード例:
# 新数据集1 data1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]}) # 新数据集2 data2 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value2': [4, 5, 6]}) # 合并数据集 merged_data = pd.merge(data1, data2, on='key') # 打印合并后的数据集 print(merged_data)
概要:
この記事では、一般的に使用されるパンダのデータ クリーニング手法をいくつか紹介し、具体的なコード例を示します。これらの手法には、欠損値の処理、重複値の処理、外れ値の処理、データ型の変換、その他の一般的な操作が含まれます。これらのテクニックを学習して適用することで、読者はデータをより適切に処理して準備できるようになり、その後のデータ分析とモデリングのための強固な基盤を築くことができます。もちろん、この記事で紹介したテクニック以外にも、pandas には他にも多くの機能やメソッドがあり、読者はさらに学習し、自分のニーズや実際の状況に応じて応用することができます。
以上がpandas データのクリーニングに関する重要なヒントを明らかにします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Win11 のヒントの共有: Microsoft アカウントのログインをスキップする 1 つのトリック Windows 11 は、新しいデザイン スタイルと多くの実用的な機能を備えた、Microsoft によって発売された最新のオペレーティング システムです。ただし、一部のユーザーにとっては、システムを起動するたびに Microsoft アカウントにログインしなければならないのが少し煩わしい場合があります。あなたがそのような人であれば、次のヒントを試してみるとよいでしょう。これにより、Microsoft アカウントでのログインをスキップして、デスクトップ インターフェイスに直接入ることができるようになります。まず、Microsoft アカウントの代わりにログインするためのローカル アカウントをシステムに作成する必要があります。これを行う利点は、

私たちは Excel で表を作成したり編集したりすることがよくありますが、ソフトウェアに触れたばかりの初心者にとって、Excel を使用して表を作成する方法は私たちほど簡単ではありません。以下では、初心者、つまり初心者がマスターする必要があるテーブル作成のいくつかの手順について演習を行います。初心者向けのサンプルフォームを以下に示します。入力方法を見てみましょう。 1. Excel ドキュメントを新規作成するには 2 つの方法があります。 [デスクトップ]-[新規作成]-[xls]ファイル上の何もない場所でマウスを右クリックします。 [スタート]-[すべてのプログラム]-[Microsoft Office]-[Microsoft Excel 20**] を実行することもできます。 2. 新しい ex ファイルをダブルクリックします。

C 言語では、他の変数のアドレスを格納するポインタを表し、& は変数のメモリ アドレスを返すアドレス演算子を表します。ポインタの使用に関するヒントには、ポインタの定義、ポインタの逆参照、ポインタが有効なアドレスを指していることの確認が含まれます。アドレス演算子の使用に関するヒントには、変数アドレスの取得、配列要素のアドレスを取得するときに配列の最初の要素のアドレスを返すことなどが含まれます。 。ポインター演算子とアドレス演算子を使用して文字列を反転する実際の例。

VSCode (Visual Studio Code) は、Microsoft によって開発されたオープン ソース コード エディターであり、強力な機能と豊富なプラグイン サポートを備えており、開発者にとって推奨されるツールの 1 つです。この記事では、初心者が VSCode の使用スキルをすぐに習得できるようにするための入門ガイドを提供します。この記事では、VSCode のインストール方法、基本的な編集操作、ショートカット キー、プラグインのインストールなどを紹介し、具体的なコード例を読者に提供します。 1. まず VSCode をインストールします。

タイトル: PHP プログラミングのヒント: 3 秒以内に Web ページにジャンプする方法 Web 開発では、一定時間内に別のページに自動的にジャンプする必要がある状況によく遭遇します。この記事では、PHP を使用して 3 秒以内にページにジャンプするプログラミング手法を実装する方法と、具体的なコード例を紹介します。まず、ページ ジャンプの基本原理は、HTTP 応答ヘッダーの Location フィールドを通じて実現されます。このフィールドを設定すると、ブラウザは指定されたページに自動的にジャンプできます。以下は、P の使用方法を示す簡単な例です。

Win11 のトリックが明らかに: Microsoft アカウントのログインをバイパスする方法 最近、Microsoft は新しいオペレーティング システム Windows11 を発表し、広く注目を集めています。以前のバージョンと比較して、Windows 11 はインターフェイスのデザインや機能の改善の点で多くの新しい調整を加えましたが、いくつかの議論も引き起こしました. 最も目を引く点は、ユーザーが Microsoft アカウントでシステムにログインすることを強制することです。ユーザーによっては、ローカル アカウントでログインすることに慣れており、個人情報を Microsoft アカウントにバインドすることに抵抗がある場合があります。

フォームは、Web サイトまたはアプリケーションの作成に不可欠な部分です。 Laravel は人気のある PHP フレームワークとして、豊富で強力なフォーム クラスを提供し、フォーム処理をより簡単かつ効率的にします。この記事では、Laravel フォームクラスを使用して開発効率を向上させるためのヒントをいくつか紹介します。以下、具体的なコード例を挙げて詳しく説明します。フォームの作成 Laravel でフォームを作成するには、まずビューに対応する HTML フォームを記述する必要があります。フォームを操作するときは、Laravel を使用できます

Wordボックスで√記号を使うコツを詳しく解説. 日々の仕事や勉強の中で、文書の編集や組版などでWordを使用することが多くなります。その中でも√記号はよく使われる記号で、通常は「正しい」を意味します。 Word ボックスで √ 記号を使用すると、情報をより明確に表現し、文書の専門性と美しさを向上させることができます。次に、ワードボックスで√記号を使用するスキルを詳しく紹介します。皆さんのお役に立てれば幸いです。 1. √ 記号を挿入する Word では、√ 記号を挿入する方法がいくつかあります。 1つ
