Rumah > pembangunan bahagian belakang > Tutorial Python > Kaedah dan teknik penapisan data Pandas asas

Kaedah dan teknik penapisan data Pandas asas

WBOY
Lepaskan: 2024-01-24 09:11:20
asal
1505 orang telah melayarinya

Kaedah dan teknik penapisan data Pandas asas

Kaedah dan teknik asas untuk penapisan data Pandas, contoh kod khusus diperlukan

Pengenalan:
Dengan pembangunan berterusan analisis dan pemprosesan data, Pandas telah menjadi alat yang berkuasa untuk saintis data dan penganalisis. Pandas ialah perpustakaan analisis data sumber terbuka berdasarkan NumPy, yang menyediakan struktur data yang fleksibel dan cekap sesuai untuk pembacaan, pembersihan, analisis dan visualisasi data. Dalam proses analisis data, penapisan data ialah pautan yang sangat penting Artikel ini akan memperkenalkan kaedah dan teknik asas penapisan data Pandas, dan memberikan contoh kod khusus untuk membantu pembaca memahami dan menggunakan dengan lebih baik.

1. Semakan struktur data Pandas
Sebelum memulakan penyaringan data tertentu, mari kita semak struktur data utama Pandas - Siri dan Bingkai Data.

1.1 Siri
Siri ialah objek yang serupa dengan tatasusunan satu dimensi, yang terdiri daripada set data dan indeks. Data boleh terdiri daripada sebarang jenis dan indeks ialah label yang membantu kami mencari dan mengakses data. Kita boleh mencipta Siri dengan cara berikut:

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])
Salin selepas log masuk

1.2 DataFrame
DataFrame ialah struktur data yang paling biasa digunakan dalam Panda dan boleh dilihat sebagai objek yang serupa dengan tatasusunan atau jadual dua dimensi. Ia terdiri daripada set lajur yang tersusun, setiap satunya boleh terdiri daripada jenis data yang berbeza (integer, apungan, rentetan, dll.). Kami boleh mencipta DataFrame dengan cara berikut:

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)
Salin selepas log masuk

2. Kaedah dan teknik penapisan data Pandas
Pandas menyediakan pelbagai kaedah dan teknik penapisan data Di bawah kami akan memperkenalkan beberapa kaedah yang biasa digunakan.

2.1 Penapisan keadaan asas
Penapisan mengikut syarat yang ditetapkan ialah salah satu cara paling biasa untuk menapis data. Pandas menyediakan fungsi yang serupa dengan kata kunci WHERE dalam SQL Kami boleh menggunakan operator perbandingan (==, !=, >, <, >=, <=) untuk menggunakan syarat pada keseluruhan DataFrame. Contohnya adalah seperti berikut:

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]
Salin selepas log masuk

2.2 Penapisan berbilang keadaan
Selain menapis mengikut satu syarat, kami juga boleh menggabungkan berbilang syarat untuk menapis melalui operator logik (dan, atau, bukan) dan kurungan. Contohnya adalah seperti berikut:

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]
Salin selepas log masuk

2.3 isin() function filtering
isin() function ialah kaedah penapisan yang sangat berguna, yang boleh membantu kami menapis data yang memenuhi syarat tertentu. Contohnya adalah seperti berikut:

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]
Salin selepas log masuk

2.4 query() function filtering
query() function ialah kaedah penapisan lanjutan yang disediakan oleh Pandas, yang boleh melaksanakan penapisan data kompleks dalam satu baris kod. Contohnya adalah seperti berikut:

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')
Salin selepas log masuk

2.5 Tapis mengikut nama lajur
Kadangkala kita hanya perlu menapis data dalam lajur tertentu dan kita boleh menapis dengan menyatakan nama lajur. Contohnya adalah seperti berikut:

# 筛选出名字和城市两列的数据
df[['Name', 'City']]
Salin selepas log masuk

2.6 Penapisan menggunakan loc dan iloc
Selain kaedah di atas, Pandas juga menyediakan dua atribut khas, loc dan iloc, untuk penapisan data. loc digunakan untuk mengindeks berdasarkan label, manakala iloc digunakan untuk mengindeks berdasarkan kedudukan. Contohnya adalah seperti berikut:

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]
Salin selepas log masuk

3. Ringkasan
Artikel ini memperkenalkan kaedah dan teknik asas penapisan data Pandas, dan menyediakan contoh kod khusus. Dengan menguasai kaedah ini, kami boleh menapis dan memproses data secara fleksibel untuk mengekstrak maklumat yang kami perlukan. Sebagai tambahan kepada kaedah di atas, Pandas juga menyediakan banyak fungsi dan alat berkuasa lain untuk pembelajaran dan penerokaan lanjut berdasarkan keperluan sebenar. Saya harap artikel ini akan membantu pembaca dalam penyaringan data dan membolehkan mereka menggunakan Panda dengan lebih baik untuk analisis dan pemprosesan data dalam aplikasi praktikal.

Atas ialah kandungan terperinci Kaedah dan teknik penapisan data Pandas asas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan