Pembersihan data ialah salah satu aspek penting dalam analisis data Selalunya terdapat beberapa baris data yang tidak sah atau salah dalam data ini mungkin disebabkan oleh ralat input, kegagalan sistem atau sebab lain. Semasa proses analisis data, kami perlu membersihkan data yang tidak sah ini untuk memastikan ketepatan keputusan analisis. Panda ialah alat yang berkuasa untuk pemprosesan dan analisis data dalam Python Ia menyediakan pelbagai fungsi dan kaedah untuk memproses data. Terdapat beberapa kemahiran praktikal yang boleh membantu kami memadamkan data baris yang tidak sah.
1. Padamkan data baris yang mengandungi nilai yang hilang
Dalam data sebenar, nilai yang hilang sering berlaku, iaitu nilai sesetengah medan ialah NaN (Bukan Nombor). Jika kami tidak memproses baris data ini, keputusan analisis seterusnya akan menjadi tidak tepat. Pandas menyediakan kaedah dropna() untuk memadamkan baris yang mengandungi nilai yang tiada.
Contoh kod khusus:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, None, 25, 30], 'Gender': ['M', 'M', None, 'M']} df = pd.DataFrame(data) # 删除含有缺失值的行数据 df.dropna(inplace=True) print(df)
Hasil berjalan:
Name Age Gender 0 Tom 20.0 M
Dalam contoh di atas, kami mencipta DataFrame yang mengandungi nilai yang hilang dan menggunakan kaedah dropna() untuk memadamkan data baris yang mengandungi nilai yang hilang. Parameter inplace=True kaedah dropna() bermaksud mengubah suai DataFrame asal tanpa mengembalikan DataFrame baharu. Dalam hasil yang dijalankan, kita dapat melihat bahawa data baris yang mengandungi nilai yang hilang telah dipadamkan.
2. Padamkan data baris yang memenuhi syarat
Dalam sesetengah kes, kami mungkin hanya mahu memadamkan data baris yang memenuhi syarat tertentu. Pandas menyediakan pelbagai kaedah untuk memenuhi keperluan ini, seperti menggunakan indeks Boolean, menggunakan kaedah query(), dsb. Berikut adalah dua kaedah yang biasa digunakan.
(1) Menggunakan indeks Boolean
Kita boleh memilih data baris yang perlu dipadamkan dengan mencipta indeks Boolean. Contoh kod khusus adalah seperti berikut:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用布尔索引删除满足条件的行数据 df = df[~(df['Age'] > 25)] print(df)
Hasil berjalan:
Name Age 0 Tom 20 1 Nick 25
Dalam contoh di atas, kami mencipta DataFrame yang mengandungi data umur dan menggunakan indeks Boolean untuk memadamkan data baris yang memenuhi syarat "umur lebih daripada 25". Dalam hasil yang dijalankan, kita dapat melihat bahawa data baris yang memenuhi syarat telah dipadamkan.
(2) Gunakan kaedah query()
pandas menyediakan kaedah query() untuk menapis data baris yang memenuhi syarat tertentu. Contoh kod khusus adalah seperti berikut:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用query()方法删除满足条件的行数据 df = df.query('Age <= 25') print(df)
Hasil berjalan:
Name Age 0 Tom 20 1 Nick 25
Dalam contoh di atas, kami mencipta DataFrame yang mengandungi data umur dan menggunakan kaedah query() untuk memadamkan baris data yang memenuhi syarat "umur lebih besar daripada 25". Dalam hasil yang dijalankan, kita dapat melihat bahawa data baris yang memenuhi syarat telah dipadamkan.
3. Ringkasan
Dalam proses pembersihan data, panda menyediakan pelbagai fungsi dan kaedah untuk memproses data, dan contoh kod di atas hanyalah sebahagian daripadanya. Dalam aplikasi praktikal, kami juga boleh menggunakan kaedah yang berbeza untuk memadam data baris mengikut keadaan tertentu. Apabila menggunakan kaedah ini, kita perlu mempertimbangkan dengan teliti struktur dan keperluan analisis data untuk memastikan ketepatan dan keberkesanan pembersihan data.
Atas ialah kandungan terperinci Alat pembersihan data: petua praktikal untuk memadamkan data baris dalam panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!