Rumah > pembangunan bahagian belakang > Tutorial Python > Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda

Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda

王林
Lepaskan: 2024-01-24 10:53:21
asal
1206 orang telah melayarinya

Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda

Optimumkan proses pemprosesan data: Petua Pandas untuk membaca fail Excel

Pengenalan:
Dalam proses analisis dan pemprosesan data, Excel ialah salah satu sumber data yang paling biasa. Walau bagaimanapun, membaca dan memproses fail Excel selalunya tidak cekap, terutamanya apabila jumlah data adalah besar. Untuk tujuan ini, artikel ini akan memperkenalkan cara menggunakan perpustakaan Pandas Python untuk mengoptimumkan proses pembacaan dan pemprosesan data, dan menyediakan contoh kod khusus.

1. Pengenalan kepada perpustakaan Pandas
Pandas ialah perpustakaan pemprosesan data yang berkuasa Ia menyediakan struktur data yang mudah dan cekap, seperti Siri dan Bingkai Data, serta kaedah dan fungsi pemprosesan data yang kaya. Struktur data teras pustaka Pandas ialah DataFrame, yang serupa dengan jadual dua dimensi dalam Excel dan boleh memudahkan manipulasi dan analisis data.

2. Pasang dan import perpustakaan Pandas
Sebelum menggunakan Pandas, anda perlu memasang perpustakaan Pandas terlebih dahulu. Pustaka Pandas boleh dipasang dengan mudah menggunakan arahan pip:

pip install pandas
Salin selepas log masuk

Selepas pemasangan selesai, anda boleh mengimport perpustakaan Pandas dalam skrip Python:

import pandas as pd
Salin selepas log masuk

3. Pandas membaca fail Excel
Panda menyediakan pelbagai kaedah untuk membaca Fail Excel. Terdapat dua yang paling biasa digunakan: read_excel() dan to_excel(). Kaedah

  1. read_excel()
    read_excel() boleh membaca fail Excel dan menukarnya menjadi objek DataFrame. Berikut ialah contoh mudah membaca fail Excel:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
    Salin selepas log masuk

    Di mana, 'data.xlsx' ialah nama fail Excel yang hendak dibaca dan 'Sheet1' ialah nama lembaran kerja yang hendak dibaca. Jika sheet_name tidak dinyatakan, lembaran kerja pertama dibaca secara lalai. Kaedah

  2. to_excel()
    to_excel() digunakan untuk menyimpan objek DataFrame sebagai fail Excel. Berikut ialah contoh:

    df.to_excel('data_processed.xlsx', sheet_name='Sheet1', index=False)
    Salin selepas log masuk

    Di mana, 'data_processed.xlsx' ialah nama fail Excel untuk disimpan dan 'Sheet1' ialah nama lembaran kerja untuk disimpan. index=False bermaksud tidak menyimpan indeks DataFrame ke Excel.

4 Optimumkan proses pemprosesan data
Apabila membaca dan memproses fail Excel, terdapat beberapa teknik biasa yang boleh meningkatkan kecekapan dan kebolehbacaan kod.

  1. Nyatakan lajur yang hendak dibaca
    Jika terdapat banyak lajur dalam fail Excel, tetapi kami hanya memerlukan beberapa lajur, kami hanya boleh membaca lajur tertentu dengan menyatakan parameter usecols. Contohnya adalah seperti berikut:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1', usecols=['列1', '列2', '列3'])
    Salin selepas log masuk
  2. Langkau baris dan lajur yang tidak berguna
    Apabila membaca fail Excel, kadangkala anda perlu melangkau beberapa baris atau lajur yang tidak berguna. Ini boleh dicapai dengan menentukan parameter skiprow dan skip_columns. Contohnya adalah seperti berikut:

    df = pd.read_excel('data.xlsx', sheet_name='Sheet1', skiprows=3, skip_columns=[0])
    Salin selepas log masuk

    skiprows bermaksud melangkau beberapa baris pertama, dan skip_columns bermaksud melangkau lajur yang ditentukan.

  3. Pembersihan dan pemprosesan data
    Selepas membaca fail Excel, data biasanya perlu dibersihkan dan diproses. Pandas menyediakan satu siri kaedah dan fungsi untuk melaksanakan pelbagai operasi pemprosesan data, seperti penapisan data, pengisihan, penggabungan, pemisahan, dsb.
  4. Gabung berbilang lembaran kerja
    Jika fail Excel mengandungi berbilang lembaran kerja, anda boleh menggunakan kaedah pandas.concat() untuk menggabungkan lembaran kerja ini. Contohnya adalah seperti berikut:

    dfs = []
    for sheet_name in ['Sheet1', 'Sheet2', 'Sheet3']:
     df = pd.read_excel('data.xlsx', sheet_name=sheet_name)
     dfs.append(df)
    combined_df = pd.concat(dfs)
    Salin selepas log masuk

    Kod di atas membaca dan menyimpan setiap lembaran kerja dalam fail Excel ke dalam senarai, dan kemudian menggabungkannya ke dalam objek DataFrame melalui kaedah pd.concat().

    5. Kesimpulan
    Artikel ini memperkenalkan teknik menggunakan perpustakaan Pandas untuk mengoptimumkan proses pemprosesan data, termasuk membaca fail Excel, menyimpan fail Excel dan mengoptimumkan proses pemprosesan data. Pandas menyediakan pelbagai kaedah dan fungsi untuk memproses sejumlah besar data, membantu kami menganalisis dan memproses data dengan lebih cekap. Saya harap artikel ini akan membantu semua orang dalam proses pemprosesan data.

    Nota: Contoh kod di atas adalah untuk rujukan sahaja Dalam aplikasi sebenar, pelarasan yang sesuai perlu dibuat berdasarkan syarat khusus data.

    Atas ialah kandungan terperinci Tingkatkan kecekapan pemprosesan data: Petua untuk membaca fail Excel menggunakan panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan