Rumah > pembangunan bahagian belakang > Tutorial Python > Terokai teknik pembersihan dan prapemprosesan data menggunakan panda

Terokai teknik pembersihan dan prapemprosesan data menggunakan panda

WBOY
Lepaskan: 2024-01-13 12:49:05
asal
709 orang telah melayarinya

Terokai teknik pembersihan dan prapemprosesan data menggunakan panda

Bincangkan kaedah pembersihan dan prapemprosesan data menggunakan panda

Pengenalan:
Dalam analisis data dan pembelajaran mesin, pembersihan dan prapemprosesan data adalah langkah yang sangat penting. Sebagai perpustakaan pemprosesan data yang berkuasa dalam Python, panda mempunyai fungsi yang kaya dan operasi yang fleksibel, yang boleh membantu kami membersihkan dan praproses data dengan cekap. Artikel ini akan meneroka beberapa kaedah panda yang biasa digunakan dan memberikan contoh kod yang sepadan.

1. Bacaan data
Pertama, kita perlu membaca fail data. panda menyediakan banyak fungsi untuk membaca fail data dalam pelbagai format, termasuk csv, Excel, pangkalan data SQL, dll. Mengambil membaca fail csv sebagai contoh, anda boleh menggunakan fungsi read_csv().

import pandas as pd

# 读取csv文件
df = pd.read_csv('data.csv')
Salin selepas log masuk

2. Pemerhatian Data
Sebelum melakukan pembersihan dan prapemprosesan data, kita perlu memerhati keadaan keseluruhan data. Panda menyediakan beberapa kaedah untuk melihat maklumat asas tentang data dengan cepat.

  1. Lihat beberapa baris pertama data.

    df.head()
    Salin selepas log masuk
  2. Lihat statistik asas data anda.

    df.describe()
    Salin selepas log masuk
  3. Lihat nama lajur data.

    df.columns
    Salin selepas log masuk

3. Mengendalikan nilai yang hilang adalah langkah penting dalam pembersihan data, dan panda menyediakan beberapa kaedah untuk menangani nilai yang hilang.

  1. Tentukan nilai yang hilang.

    df.isnull()
    Salin selepas log masuk

  2. Alih keluar baris atau lajur yang mengandungi nilai yang tiada.

    # 删除包含缺失值的行
    df.dropna(axis=0)
    
    # 删除包含缺失值的列
    df.dropna(axis=1)
    Salin selepas log masuk

  3. Pengisian nilai yang tiada.

    # 使用指定值填充缺失值
    df.fillna(value)
    
    # 使用均值填充缺失值
    df.fillna(df.mean())
    Salin selepas log masuk

4. Memproses nilai pendua

Nilai pendua akan mengganggu analisis dan pemodelan data, jadi kita perlu menangani nilai pendua.

  1. Tentukan nilai pendua.

    df.duplicated()
    Salin selepas log masuk

  2. Alih keluar nilai pendua.

    df.drop_duplicates()
    Salin selepas log masuk

5. Penukaran data

Penukaran data ialah bahagian penting dalam prapemprosesan dan panda menyediakan banyak kaedah untuk penukaran data.

  1. Isih data.

    # 按某一列升序排序
    df.sort_values(by='column_name')
    
    # 按多列升序排序
    df.sort_values(by=['column1', 'column2'])
    Salin selepas log masuk

  2. Penormalan data.

    # 使用最小-最大缩放(Min-Max Scaling)
    df_scaled = (df - df.min()) / (df.max() - df.min())
    Salin selepas log masuk

  3. Pendiskritan data.

    # 使用等宽离散化(Equal Width Binning)
    df['bin'] = pd.cut(df['column'], bins=5)
    Salin selepas log masuk

6. Pemilihan Ciri

Mengikut keperluan tugasan, kita perlu memilih ciri yang sesuai untuk analisis dan pemodelan. panda menyediakan beberapa kaedah untuk pemilihan ciri.

  1. Pilih ciri mengikut lajur.

    # 根据列名选择特征
    df[['column1', 'column2']]
    
    # 根据列的位置选择特征
    df.iloc[:, 2:4]
    Salin selepas log masuk

  2. Pilih ciri berdasarkan syarat.

    # 根据条件选择特征
    df[df['column'] > 0]
    Salin selepas log masuk

7. Penggabungan Data

Apabila kita perlu menggabungkan beberapa set data, kita boleh menggunakan kaedah yang disediakan oleh panda untuk bergabung.

  1. Gabung mengikut baris.

    df1.append(df2)
    Salin selepas log masuk

  2. Gabung mengikut lajur.

    pd.concat([df1, df2], axis=1)
    Salin selepas log masuk

8. Penjimatan Data

Akhir sekali, apabila kita selesai memproses data, kita boleh menyimpan data yang diproses ke dalam fail.

# 保存到csv文件
df.to_csv('processed_data.csv', index=False)

# 保存到Excel文件
df.to_excel('processed_data.xlsx', index=False)
Salin selepas log masuk
Kesimpulan:

Artikel ini memperkenalkan beberapa kaedah biasa pembersihan dan prapemprosesan data menggunakan panda, termasuk pembacaan data, pemerhatian data, pemprosesan nilai yang hilang, pemprosesan nilai pendua, transformasi data, pemilihan ciri, penggabungan data dan penjimatan data. Melalui fungsi berkuasa dan operasi fleksibel panda, kami boleh melakukan pembersihan dan prapemprosesan data dengan cekap, meletakkan asas yang kukuh untuk analisis dan pemodelan data seterusnya. Dalam aplikasi praktikal, pelajar boleh memilih kaedah yang sesuai mengikut keperluan khusus dan menggunakannya bersama dengan kod sebenar.

Atas ialah kandungan terperinci Terokai teknik pembersihan dan prapemprosesan data menggunakan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan