Bagaimana untuk melakukan pembersihan dan pemprosesan data dalam Python

PHPz
Lepaskan: 2023-10-20 17:55:50
asal
1153 orang telah melayarinya

Bagaimana untuk melakukan pembersihan dan pemprosesan data dalam Python

Cara melakukan pembersihan dan pemprosesan data dalam Python

Pembersihan dan pemprosesan data adalah langkah yang sangat penting dalam analisis data dan proses perlombongan. Pembersihan dan pemprosesan data boleh membantu kami menemui masalah, kehilangan atau anomali dalam data dan bersedia untuk analisis dan pemodelan data seterusnya. Artikel ini akan memperkenalkan cara menggunakan Python untuk pembersihan dan pemprosesan data, serta memberikan contoh kod khusus.

  1. Import perpustakaan yang diperlukan

Pertama, kita perlu mengimport beberapa perpustakaan yang diperlukan, seperti panda dan numpy.

import pandas as pd
import numpy as np
Salin selepas log masuk
  1. Memuatkan data

Kami perlu memuatkan set data untuk dibersihkan dan diproses. Fail CSV boleh dimuatkan menggunakan fungsi read_csv() pustaka panda. read_csv()函数加载CSV文件。

data = pd.read_csv('data.csv')
Salin selepas log masuk
  1. 查看数据

在开始清洗和处理数据之前,我们可以先查看一下数据的基本情况,如数据的形状、列名、前几行等。

print(data.shape)        # 打印数据的形状
print(data.columns)      # 打印列名
print(data.head())       # 打印前几行数据
Salin selepas log masuk
  1. 处理缺失值

接下来,我们需要处理数据中的缺失值。缺失值可能会影响后续的数据分析和建模结果。有多种方法可以处理缺失值,如删除包含缺失值的行或列、填充缺失值等。

删除包含缺失值的行或列:

data.dropna()                    # 删除包含缺失值的行
data.dropna(axis=1)              # 删除包含缺失值的列
Salin selepas log masuk

填充缺失值:

data.fillna(0)                   # 用0填充缺失值
data.fillna(data.mean())         # 用均值填充缺失值
Salin selepas log masuk
  1. 处理重复值

数据中的重复值也可能会影响分析结果,因此我们需要处理重复值。可以使用pandas库的drop_duplicates()

data.drop_duplicates()           # 删除重复值
Salin selepas log masuk

    Lihat data
    1. Sebelum mula membersihkan dan memproses data, kita boleh menyemak keadaan asas data dahulu, seperti bentuk data, nama lajur, beberapa baris pertama , dsb.
    mean = data['column'].mean()                           
    std = data['column'].std()                            
    
    data = data[~((data['column'] - mean) > 3 * std)]      
    Salin selepas log masuk

      Mengendalikan Nilai Yang Hilang

      Seterusnya, kita perlu mengendalikan nilai yang hilang dalam data. Nilai yang hilang boleh menjejaskan analisis data dan hasil pemodelan seterusnya. Terdapat banyak cara untuk mengendalikan nilai yang hilang, seperti memadamkan baris atau lajur yang mengandungi nilai yang hilang, mengisi nilai yang hilang, dsb.
      1. Padamkan baris atau lajur yang mengandungi nilai yang tiada:
      2. data['column'] = np.log(data['column'])               
        Salin selepas log masuk
      Isi nilai yang tiada:

      data['column'] = (data['column'] - data['column'].min()) / (data['column'].max() - data['column'].min())
      Salin selepas log masuk

        Kendalikan nilai pendua

        Nilai pendua dalam data, jadi kami juga boleh menjejaskan keputusan analisis perlu Mengendalikan nilai pendua. Nilai pendua boleh dialih keluar menggunakan fungsi drop_duplicates() pustaka panda.

        data.to_csv('cleaned_data.csv', index=False)          
        Salin selepas log masuk
        1. Mengendalikan outlier

        Outlier ialah nilai yang berbeza secara ketara daripada pemerhatian lain dalam set data, yang mungkin berat sebelah keputusan analisis. Pelbagai kaedah statistik boleh digunakan untuk mengesan dan mengendalikan outlier.

        Sebagai contoh, menggunakan kaedah sisihan piawai 3 kali untuk mengesan dan mengendalikan outlier:

        rrreee

        Transformasi data🎜🎜🎜Kadangkala, kita perlu melakukan beberapa transformasi pada data untuk analisis dan pemodelan yang lebih baik. Contohnya, penjelmaan logaritma, normalisasi, dsb. 🎜🎜Transformasi log: 🎜rrreee🎜Penormalan: 🎜rrreee🎜🎜Simpan data yang dibersihkan🎜🎜🎜Akhir sekali, kami boleh menyimpan data yang telah dibersihkan dan diproses ke fail CSV baharu untuk kegunaan seterusnya. 🎜rrreee🎜Ringkasan: 🎜🎜Artikel ini memperkenalkan langkah khusus tentang cara melakukan pembersihan dan pemprosesan data dalam Python, dan menyediakan contoh kod yang sepadan. Pembersihan dan pemprosesan data ialah pautan penting dalam analisis data dan proses perlombongan, yang boleh meningkatkan ketepatan dan kebolehpercayaan analisis dan pemodelan seterusnya. Dengan menguasai teknik ini, kami boleh memproses dan menganalisis data dengan lebih baik. 🎜

        Atas ialah kandungan terperinci Bagaimana untuk melakukan pembersihan dan pemprosesan data dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan