Rumah > pembangunan bahagian belakang > Tutorial Python > Teknik Perbalahan Data dalam Python

Teknik Perbalahan Data dalam Python

PHPz
Lepaskan: 2023-06-10 18:28:38
asal
1275 orang telah melayarinya

Python ialah bahasa pengaturcaraan peringkat tinggi yang digunakan secara meluas dalam bidang sains data Ia digunakan secara meluas dalam pengumpulan data, pembersihan, analisis dan visualisasi. Perbalahan data ialah kemahiran teras dalam pemprosesan data Artikel ini akan memperkenalkan beberapa teknik perbalahan data biasa dalam Python untuk membantu pembaca memproses dan menganalisis data dengan lebih baik.

  1. Penukaran jenis data

Dalam proses penyelarasan data, selalunya perlu untuk menukar jenis data yang berbeza termasuk rentetan, integer dan nombor titik terapung . dan nilai Boolean dll. Python menyediakan fungsi penukaran jenis yang berkuasa, seperti int(), float(), str(), bool(), dsb., yang boleh menukar satu jenis data kepada jenis data lain, contohnya:

# 将字符串转换成整数
age_str = '18'
age_int = int(age_str)

# 将整数转换成字符串
age_int = 18
age_str = str(age_int)

# 将浮点数转换成整数
height_float = 1.75
height_int = int(height_float)

# 将整数转换成布尔值
num = 0
is_zero = bool(num)     # False
Salin selepas log masuk
  1. Deduplikasi Data

Apabila memproses sejumlah besar data, data pendua mungkin berlaku dan teknik penyahduplikasian data perlu digunakan. Menggunakan fungsi set() dalam Python boleh mengalih keluar elemen pendua dengan cepat daripada senarai, contohnya:

# 去除列表中的重复元素
lst = [1, 2, 3, 2, 4, 1]
lst_unique = list(set(lst))
print(lst_unique)       # [1, 2, 3, 4]
Salin selepas log masuk
  1. Pengisian data

Dalam proses penyusunan data, kadangkala ia adalah perlu untuk Nilai yang hilang diisi untuk pemprosesan seterusnya yang lebih baik. Gunakan fungsi fillna() dalam Python untuk mengisi data dengan mudah, contohnya:

# 对缺失值进行填充
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'age': [18, None, 21],
                   'gender': ['F', 'M', None]})

df_fill = df.fillna(value={'age': df['age'].mean(),
                           'gender': 'U'})
print(df_fill)
Salin selepas log masuk

Hasil output adalah seperti berikut:

       name   age gender
0     Alice  18.0      F
1       Bob  19.5      M
2  Charlie  21.0      U
Salin selepas log masuk
  1. Pembentuk semula data

dalam Semasa proses penyusunan data, data mungkin perlu dibentuk semula untuk pemprosesan seterusnya yang lebih baik. Menggunakan fungsi pivot() dalam Python boleh memudahkan pembentukan semula data, sebagai contoh:

# 数据重塑
import pandas as pd

df = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                   'gender': ['F', 'M', 'M'],
                   'subject': ['Math', 'Math', 'English'],
                   'score': [90, 87, 88]})

df_res = df.pivot(index='name', columns='subject', values='score')
print(df_res)
Salin selepas log masuk

Hasil output adalah seperti berikut:

subject  English  Math
name                  
Alice        NaN  90.0
Bob          NaN  87.0
Charlie     88.0   NaN
Salin selepas log masuk
  1. Penggabungan data

dalam Dalam operasi sebenar, data biasanya disimpan dalam jadual yang berbeza dan perlu digabungkan. Menggunakan fungsi merge() dalam Python boleh memudahkan penggabungan data, contohnya:

# 数据合并
import pandas as pd

df1 = pd.DataFrame({'name': ['Alice', 'Bob', 'Charlie'],
                    'age': [18, 19, 21],
                    'gender': ['F', 'M', 'M']})
df2 = pd.DataFrame({'name': ['Alice', 'Bob'],
                    'score': [90, 87]})

df_merge = pd.merge(df1, df2, on='name')
print(df_merge)
Salin selepas log masuk

Hasil output adalah seperti berikut:

       name  age gender  score
0     Alice   18      F     90
1       Bob   19      M     87
Salin selepas log masuk

Ringkasnya, kemahiran membentuk data dalam Python termasuk penukaran jenis data , Penyahduplikasian data, pengisian data, pembentukan semula data dan penggabungan data, dsb. Teknik ini boleh membantu pembaca memproses dan menganalisis data dengan lebih baik serta meningkatkan kecekapan dan ketepatan pemprosesan data.

Atas ialah kandungan terperinci Teknik Perbalahan Data dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan