Alat pemprosesan data: teknik yang cekap untuk membaca fail Excel dengan panda

WBOY
Lepaskan: 2024-01-19 08:58:13
asal
1152 orang telah melayarinya

Alat pemprosesan data: teknik yang cekap untuk membaca fail Excel dengan panda

Dengan peningkatan populariti pemprosesan data, semakin ramai orang memberi perhatian kepada cara menggunakan data dengan cekap dan menjadikan data berfungsi untuk diri mereka sendiri. Dalam pemprosesan data harian, jadual Excel sudah pasti format data yang paling biasa. Walau bagaimanapun, apabila sejumlah besar data perlu diproses, pengendalian Excel secara manual jelas akan menjadi sangat memakan masa dan susah payah. Oleh itu, artikel ini akan memperkenalkan alat pemprosesan data yang cekap - panda, dan cara menggunakan alat ini untuk membaca fail Excel dengan cepat dan melaksanakan pemprosesan data.

1. Pengenalan kepada panda

pandas ialah alat analisis data Python yang berkuasa yang menyediakan pelbagai fungsi pembacaan data, pemprosesan data dan analisis data. Struktur data utama panda ialah DataFrame dan Series, yang boleh membaca terus fail dalam format biasa seperti Excel dan CSV dan melaksanakan pelbagai operasi pemprosesan data. Oleh itu, panda digunakan secara meluas dalam bidang pemprosesan data dan dikenali sebagai salah satu alat arus perdana untuk analisis data Python.

2. Kaedah asas membaca fail Excel dalam panda

Dalam panda, fungsi utama untuk membaca fail Excel ialah read_excel, yang boleh membaca data dalam jadual Excel dan menukarnya menjadi objek DataFrame. Kodnya adalah seperti berikut:

import pandas as pd
data = pd.read_excel('test.xlsx', sheet_name='Sheet1')
Salin selepas log masuk

Dalam kod di atas, test.xlsx ialah nama fail Excel untuk dibaca dan Helaian1 ialah nama Helaian untuk dibaca. Dengan cara ini, data ialah objek DataFrame, yang mengandungi data dalam jadual Excel.

3. Teknik yang cekap untuk membaca fail Excel dengan panda

Walaupun kaedah membaca asas panda telah menjimatkan banyak masa berbanding operasi manual Excel, apabila memproses data yang banyak, kami dapat mengoptimumkan lagi proses membaca Excel fail.

1. Gunakan parameter skiprows dan nrows

Kita boleh menggunakan parameter skiprows dan nrows untuk melangkau baris dalam jadual dan membaca bilangan baris yang ditentukan. Sebagai contoh, kod berikut boleh membaca data dari baris 2 hingga baris 1001 dalam jadual:

data = pd.read_excel('test.xlsx', sheet_name='Sheet1', skiprows=1, nrows=1000)
Salin selepas log masuk

Dengan cara ini, kita hanya boleh membaca sebahagian daripada data, dengan itu menjimatkan masa membaca dan penggunaan memori.

2. Gunakan parameter usecols

Jika kita hanya memerlukan lajur data tertentu dalam jadual, kita boleh menggunakan parameter usecols untuk membaca hanya lajur yang ditentukan. Sebagai contoh, kod berikut hanya membaca lajur A dan B dalam jadual:

data = pd.read_excel('test.xlsx', sheet_name='Sheet1', usecols=['A', 'B'])
Salin selepas log masuk

Dengan cara ini, kita boleh fokus pada lajur data yang perlu diproses dan mengelakkan membaca data yang tidak diperlukan.

3. Gunakan parameter chunksize dan iterator

Apabila fail Excel dibaca besar, kita boleh menggunakan parameter chunksize dan iterator untuk membaca data dalam blok. Contohnya, kod berikut boleh membaca 1,000 baris data pada satu masa:

for i in pd.read_excel('test.xlsx', sheet_name='Sheet1', chunksize=1000):
    # 处理代码
Salin selepas log masuk

Dengan cara ini, kita boleh membaca blok demi blok data dan memprosesnya dalam kelompok untuk meningkatkan kecekapan pemprosesan data.

4 Contoh lengkap

Berikut ialah kod contoh lengkap untuk panda membaca fail Excel Kod ini boleh membaca semua data dalam Helaian1 dalam test.xlsx, kemudian mengira jumlah lajur A dan B, dan hasil keluaran. :

import pandas as pd
data = pd.read_excel('test.xlsx', sheet_name='Sheet1')
result = pd.DataFrame([{'sum_A': data['A'].sum(), 'sum_B': data['B'].sum()}])
result.to_excel('result.xlsx', index=False)
Salin selepas log masuk

Dalam kod di atas, kami mula-mula membaca Helaian1 keseluruhan fail test.xlsx, kemudian menggunakan fungsi jumlah untuk mengira jumlah lajur A dan B, dan menyimpan hasilnya dalam objek DataFrame. Akhir sekali, kami menulis keputusan ke dalam hasil fail Excel baharu.xlsx, yang mengandungi hanya satu baris data, dengan lajur pertama ialah jumlah lajur A dan lajur kedua ialah jumlah lajur B.

Ringkasan

Melalui pengenalan di atas, kita dapat melihat bahawa menggunakan panda untuk membaca fail Excel boleh meningkatkan kecekapan pemprosesan data, dan proses membaca dan pemprosesan data boleh dioptimumkan lagi dengan bantuan pelbagai parameter dan kaedah lanjutan yang disediakan oleh panda. Oleh itu, dalam bidang analisis dan pemprosesan data, menggunakan panda adalah alat yang sangat cekap dan praktikal.

Atas ialah kandungan terperinci Alat pemprosesan data: teknik yang cekap untuk membaca fail Excel dengan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan