Python のデータラングリング手法-Python チュートリアル-php.cn

Python のデータラングリング手法

PHPz

リリース： 2023-06-10 18:28:38

オリジナル

1341 人が閲覧しました

Python はデータサイエンスの分野で広く使用されている高水準プログラミング言語であり、データの収集、クリーニング、分析、視覚化に広く使用されています。データラングリングはデータ処理の中核となるスキルです。この記事では、読者がデータをより適切に処理および分析できるように、Python での一般的なデータラングリングテクニックをいくつか紹介します。

データ型変換

データの正則化のプロセスでは、さまざまなデータ型を変換する必要があることがよくあります。一般的なデータ型には、文字列、整数、浮動小数点数などがあります。 . やブール値など。 Python には、int()、float()、str()、bool() などの強力な型変換関数が用意されており、あるデータ型を別のデータ型に変換できます。例:

# 将字符串转换成整数
age_str = '18'
age_int = int(age_str)

# 将整数转换成字符串
age_int = 18
age_str = str(age_int)

# 将浮点数转换成整数
height_float = 1.75
height_int = int(height_float)

# 将整数转换成布尔值
num = 0
is_zero = bool(num)     # False

ログイン後にコピー

データ重複排除

大量のデータを処理する場合、重複データが発生する可能性があるため、データ重複排除技術を使用する必要があります。 Python で set() 関数を使用すると、リストから重複要素をすばやく削除できます。たとえば、次のようになります。

# 去除列表中的重复元素
lst = [1, 2, 3, 2, 4, 1]
lst_unique = list(set(lst))
print(lst_unique)       # [1, 2, 3, 4]

ログイン後にコピー

データ充填

データの正規化のプロセスでは、後続の処理を改善するために欠損値が埋められる必要があります。 Python で fillna() 関数を使用すると、データを簡単に入力できます。例:

# 对缺失值进行填充
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [18, None, 21],
                   'gender': ['F', 'M', None]})

df_fill = df.fillna(value={'age': df['age'].mean(),
                           'gender': 'U'})
print(df_fill)

ログイン後にコピー

出力結果は次のとおりです:

       name   age gender
0     Alice  18.0      F
1       Bob  19.5      M
2  Charlie  21.0      U

ログイン後にコピー

データの再整形

#In データキュレーションプロセス中に、その後の処理を改善するためにデータの再形成が必要になる場合があります。 Python で pivot() 関数を使用すると、データを簡単に再構成できます。例:

# 数据重塑
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'gender': ['F', 'M', 'M'],
                   'subject': ['Math', 'Math', 'English'],
                   'score': [90, 87, 88]})

df_res = df.pivot(index='name', columns='subject', values='score')
print(df_res)

ログイン後にコピー

出力結果は次のとおりです:

subject  English  Math
name                  
Alice        NaN  90.0
Bob          NaN  87.0
Charlie     88.0   NaN

ログイン後にコピー

In 実際の運用では、通常、データは別のテーブルに格納されているため、マージする必要があります。 Python で merge() 関数を使用すると、データのマージが容易になります。例:

# 数据合并
import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                    'age': [18, 19, 21],
                    'gender': ['F', 'M', 'M']})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'],
                    'score': [90, 87]})

df_merge = pd.merge(df1, df2, on='name')
print(df_merge)

ログイン後にコピー

出力結果は次のとおりです:

       name  age gender  score
0     Alice   18      F     90
1       Bob   19      M     87

ログイン後にコピー

要約すると、Python のデータ整形スキルにはデータ型変換が含まれます。データ重複排除、データ充填、データ再整形、データ結合など。これらの手法は、読者がデータをより適切に処理および分析し、データ処理の効率と精度を向上させるのに役立ちます。

以上がPython のデータラングリング手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python のデータ ラングリング手法

Python のデータラングリング手法