Bagaimana untuk memproses data Excel dengan perpustakaan Pandas Python?-Tutorial Python-php.cn

Jadual Kandungan

1. Baca jadual xlsx: pd.read_excel()

2. Dapatkan saiz data jadual: bentuk

3. Kaedah mengindeks data: [ ] / loc[] / iloc[]

4. Tentukan sama ada data kosong: np.isnan() / pd.isnull()

5. Cari data yang memenuhi syarat

6. Ubah suai nilai elemen: replace()

7. Tambahkan data: [ ]

8. Padam data: del() / drop()

Rumah

pembangunan bahagian belakang

Tutorial Python

Bagaimana untuk memproses data Excel dengan perpustakaan Pandas Python?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 08, 2023 pm 09:49 PM

excel python pandas

1. Baca jadual xlsx: pd.read_excel()

Kandungan asal adalah seperti berikut:

Bagaimana untuk memproses data Excel dengan perpustakaan Pandas Python?

a) Baca yang ke- Helaian (sub-jadual, anda boleh melihat atau menambah atau memadam sub-jadual di sebelah kiri bawah) data

import pandas as pd
# 每次都需要修改的路径
path = "test.xlsx"
# sheet_name默认为0，即读取第一个sheet的数据
sheet = pd.read_excel(path, sheet_name=0)
print(sheet)
"""
  Unnamed: 0  name1  name2  name3
0       row1      1    2.0      3
1       row2      4    NaN      6
2       row3      7    8.0      9
"""

Salin selepas log masuk

Anda dapat melihat bahawa tiada kandungan di sudut kiri atas borang asal, dan hasil baca ialah "Tanpa Nama : 0", ini kerana fungsi read_excel akan menjadi lalai baris pertama jadual sebagai nama indeks lajur . Selain itu, untuk nama indeks baris, penomboran bermula dari baris kedua secara lalai (kerana baris pertama lalai ialah nama indeks lajur, jadi baris pertama lalai bukan data Jika tidak dinyatakan secara khusus, penomboran bermula dari 0 secara automatik, sebagai mengikuti.

sheet = pd.read_excel(path)
# 查看列索引名，返回列表形式
print(sheet.columns.values)
# 查看行索引名，默认从第二行开始编号，如果不特意指定，则自动从0开始编号，返回列表形式
print(sheet.index.values)
"""
[&#39;Unnamed: 0&#39; &#39;name1&#39; &#39;name2&#39; &#39;name3&#39;]
[0 1 2]
"""

Salin selepas log masuk

b) Nama indeks lajur juga boleh disesuaikan, seperti berikut:

sheet = pd.read_excel(path, names=[&#39;col1&#39;, &#39;col2&#39;, &#39;col3&#39;, &#39;col4&#39;])
print(sheet)
# 查看列索引名，返回列表形式
print(sheet.columns.values)
"""
   col1  col2  col3  col4
0  row1     1   2.0     3
1  row2     4   NaN     6
2  row3     7   8.0     9
[&#39;col1&#39; &#39;col2&#39; &#39;col3&#39; &#39;col4&#39;]
"""

Salin selepas log masuk

c) Lajur ke-n juga boleh ditentukan sebagai indeks baris namakan , seperti berikut:

# 指定第一列为行索引
sheet = pd.read_excel(path, index_col=0)
print(sheet)
"""
      name1  name2  name3
row1      1    2.0      3
row2      4    NaN      6
row3      7    8.0      9
"""

Salin selepas log masuk

d) Langkau baris ke-n data semasa membaca

# 跳过第2行的数据（第一行索引为0）
sheet = pd.read_excel(path, skiprows=[1])
print(sheet)
"""
  Unnamed: 0  name1  name2  name3
0       row2      4    NaN      6
1       row3      7    8.0      9
"""

Salin selepas log masuk

2. Dapatkan saiz data jadual: bentuk

path = "test.xlsx"
# 指定第一列为行索引
sheet = pd.read_excel(path, index_col=0)
print(sheet)
print(&#39;==========================&#39;)
print(&#39;shape of sheet:&#39;, sheet.shape)
"""
      name1  name2  name3
row1      1    2.0      3
row2      4    NaN      6
row3      7    8.0      9
==========================
shape of sheet: (3, 3)
"""

Salin selepas log masuk

3. Kaedah mengindeks data: [ ] / loc[] / iloc[]

1 Terus tambah kurungan segi empat sama pada indeks

Anda boleh menggunakan kurungan segi empat sama untuk menambah nama lajur Kaedah [col_name] digunakan untuk mengekstrak data lajur tertentu, dan kemudian kurungan segi empat sama ditambah nombor indeks [indeks] digunakan untuk mengindeks nilai kedudukan khusus lajur ini. Di sini, lajur bernama name1 diindeks, dan kemudian data yang terletak di baris 1 lajur (indeks ialah 1) dicetak: 4, seperti berikut:

sheet = pd.read_excel(path)
# 读取列名为 name1 的列数据
col = sheet[&#39;name1&#39;]
print(col)
# 打印该列第二个数据
print(col[1]) # 4
"""
0    1
1    4
2    7
Name: name1, dtype: int64
4
"""

Salin selepas log masuk

kaedah iloc, indeks oleh nombor integer

Gunakan indeks sheet.iloc[ ], kurungan segi empat sama ialah nombor kedudukan integer bagi baris dan lajur (bermula dari 0 selepas mengecualikan lajur sebagai indeks baris dan baris sebagai indeks lajur) nombor siri).
a) sheet.iloc[1, 2]: Ekstrak baris 2, lajur 3 data. Yang pertama ialah indeks baris, yang kedua ialah indeks lajur

b) sheet.iloc[0: 2]: Ekstrak dua baris pertamadata

c) sheet.iloc[0:2, 0:2]: Ekstrak dua baris pertama daripada dua lajur pertama data melalui sharding

# 指定第一列数据为行索引
sheet = pd.read_excel(path, index_col=0)
# 读取第2行（row2）的第3列（6）数据
# 第一个是行索引，第二个是列索引
data = sheet.iloc[1, 2]
print(data)  # 6
print(&#39;================================&#39;)
# 通过分片的方式提取 前两行 数据
data_slice = sheet.iloc[0:2]
print(data_slice)
print(&#39;================================&#39;)
# 通过分片的方式提取 前两行 的 前两列 数据
data_slice = sheet.iloc[0:2, 0:2]
print(data_slice)
"""
6
================================
      name1  name2  name3
row1      1    2.0      3
row2      4    NaN      6
================================
      name1  name2
row1      1    2.0
row2      4    NaN
"""

Salin selepas log masuk

3. kaedah loc, indeks mengikut nama baris dan lajur

gunakan sheet.loc[ ] indeks, kurungan segi empat sama ialah baris dan lajur Rentetan nama . Penggunaan khusus adalah sama seperti iloc , kecuali indeks integer iloc digantikan dengan indeks nama baris dan lajur. Kaedah pengindeksan ini lebih intuitif untuk digunakan.

Nota: iloc[1: 2] tidak mengandungi 2, tetapi loc['row1': 'row2'] tidak Mengandungi 'baris2'.

# 指定第一列数据为行索引
sheet = pd.read_excel(path, index_col=0)
# 读取第2行（row2）的第3列（6）数据
# 第一个是行索引，第二个是列索引
data = sheet.loc[&#39;row2&#39;, &#39;name3&#39;]
print(data)  # 1
print(&#39;================================&#39;)
# 通过分片的方式提取 前两行 数据
data_slice = sheet.loc[&#39;row1&#39;: &#39;row2&#39;]
print(data_slice)
print(&#39;================================&#39;)
# 通过分片的方式提取 前两行 的 前两列 数据
data_slice1 = sheet.loc[&#39;row1&#39;: &#39;row2&#39;, &#39;name1&#39;: &#39;name2&#39;]
print(data_slice1)
"""
6
================================
      name1  name2  name3
row1      1    2.0      3
row2      4    NaN      6
================================
      name1  name2
row1      1    2.0
row2      4    NaN
"""

Salin selepas log masuk

4. Tentukan sama ada data kosong: np.isnan() / pd.isnull()

1. Gunakan isnan() atau daripada pustaka numpy Kaedah isnull() perpustakaan panda menentukan sama ada ia sama dengan nan .

sheet = pd.read_excel(path)
# 读取列名为 name1 的列数据
col = sheet[&#39;name2&#39;]
 
print(np.isnan(col[1]))  # True
print(pd.isnull(col[1]))  # True
"""
True
True
"""

Salin selepas log masuk

2. Gunakan str() untuk menukar kepada rentetan dan tentukan sama ada ia sama dengan 'nan' .

sheet = pd.read_excel(path)
# 读取列名为 name1 的列数据
col = sheet[&#39;name2&#39;]
print(col)
# 打印该列第二个数据
if str(col[1]) == &#39;nan&#39;:
    print(&#39;col[1] is nan&#39;)
"""
0    2.0
1    NaN
2    8.0
Name: name2, dtype: float64
col[1] is nan
"""

Salin selepas log masuk

5. Cari data yang memenuhi syarat

Fahami kod di bawah

# 提取name1 == 1 的行
mask = (sheet[&#39;name1&#39;] == 1)
x = sheet.loc[mask]
print(x)
"""
      name1  name2  name3
row1      1    2.0      3
"""

Salin selepas log masuk

6. Ubah suai nilai elemen: replace()

helaian['name2'].replace(2, 100, inplace=True) : Tukar elemen 2 nama lajur2 kepada elemen 100, beroperasi di tempatnya.

sheet[&#39;name2&#39;].replace(2, 100, inplace=True)
print(sheet)
"""
      name1  name2  name3
row1      1  100.0      3
row2      4    NaN      6
row3      7    8.0      9
"""

Salin selepas log masuk

helaian['name2'].replace(np.nan, 100, inplace=True) : Tukar elemen kosong (nan) dalam lajur name2 kepada elemen 100, beroperasi dalam tempat.

import numpy as np 
sheet[&#39;name2&#39;].replace(np.nan, 100, inplace=True)
print(sheet)
print(type(sheet.loc[&#39;row2&#39;, &#39;name2&#39;]))
"""
      name1  name2  name3
row1      1    2.0      3
row2      4  100.0      6
row3      7    8.0      9
"""

Salin selepas log masuk

7. Tambahkan data: [ ]

Untuk menambah lajur, terus gunakan kurungan segi empat sama [nama untuk ditambahkan] untuk menambah.

helaian['name_add'] = [55, 66, 77]: Tambahkan lajur bernama name_add dengan nilai [55, 66, 77]

path = "test.xlsx"
# 指定第一列为行索引
sheet = pd.read_excel(path, index_col=0)
print(sheet)
print(&#39;====================================&#39;)
# 添加名为 name_add 的列，值为[55, 66, 77]
sheet[&#39;name_add&#39;] = [55, 66, 77]
print(sheet)
"""
      name1  name2  name3
row1      1    2.0      3
row2      4    NaN      6
row3      7    8.0      9
====================================
      name1  name2  name3  name_add
row1      1    2.0      3        55
row2      4    NaN      6        66
row3      7    8.0      9        77
"""

Salin selepas log masuk

8. Padam data: del() / drop()

a) del(sheet['name3']): Gunakan kaedah del untuk memadam

sheet = pd.read_excel(path, index_col=0)
# 使用 del 方法删除 &#39;name3&#39; 的列
del(sheet[&#39;name3&#39;])
print(sheet)
"""
      name1  name2
row1      1    2.0
row2      4    NaN
row3      7    8.0
"""

Salin selepas log masuk

b) sheet.drop('row1', axis=0)

Gunakan kaedah drop untuk memadam baris row1 Jika lajur dipadamkan, paksi yang sepadan=1.

Apabila parameter inplace adalah Benar, parameter tidak akan dikembalikan dan data asal akan dipadamkan terus

Apabila parameter inplace adalah Palsu (lalai), data asal tidak akan menjadi. diubah suai, tetapi data yang diubah suai akan dikembalikan Data

sheet.drop(&#39;row1&#39;, axis=0, inplace=True)
print(sheet)
"""
      name1  name2  name3
row2      4    NaN      6
row3      7    8.0      9
"""

Salin selepas log masuk

c) sheet.drop(labels=['name1', 'name2'], axis=1)

<. 🎜>Gunakan parameter label=[ ] untuk memadam Berbilang baris atau lajur

# 删除多列，默认 inplace 参数位 False，即会返回结果
print(sheet.drop(labels=[&#39;name1&#39;, &#39;name2&#39;], axis=1))
"""
      name3
row1      3
row2      6
row3      9
"""

Salin selepas log masuk

9 Simpan ke fail excel: to_excel()

1 Fail .xlsx

names = [&#39;a&#39;, &#39;b&#39;, &#39;c&#39;]
scores = [99, 100, 99]
result_excel = pd.DataFrame()
result_excel["姓名"] = names
result_excel["评分"] = scores
# 写入excel
result_excel.to_excel(&#39;test3.xlsx&#39;)

Salin selepas log masuk

Bagaimana untuk memproses data Excel dengan perpustakaan Pandas Python?

2. Simpan fail excel yang diubah suai sebagai fail .xlsx.

Sebagai contoh, selepas mengubah suai nan dalam jadual asal kepada 100, simpan fail:

import numpy as np 
# 指定第一列为行索引
sheet = pd.read_excel(path, index_col=0)
sheet[&#39;name2&#39;].replace(np.nan, 100, inplace=True)
sheet.to_excel(&#39;test2.xlsx&#39;)

Salin selepas log masuk

Buka test2.xlsx dan hasilnya adalah seperti berikut:

Bagaimana untuk memproses data Excel dengan perpustakaan Pandas Python?

Atas ialah kandungan terperinci Bagaimana untuk memproses data Excel dengan perpustakaan Pandas Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7503

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Hadidb: Pangkalan data yang ringan dan berskala mendatar di Python Apr 08, 2025 pm 06:12 PM

Hadidb: Pangkalan data Python yang ringan, tinggi, Hadidb (Hadidb) adalah pangkalan data ringan yang ditulis dalam Python, dengan tahap skalabilitas yang tinggi. Pasang HadIdb menggunakan pemasangan PIP: Pengurusan Pengguna PipInstallHadidB Buat Pengguna: CreateUser () Kaedah untuk membuat pengguna baru. Kaedah pengesahan () mengesahkan identiti pengguna. dariHadidb.OperationImportuserer_Obj = user ("admin", "admin") user_obj.

Kaedah Navicat untuk melihat kata laluan pangkalan data MongoDB Apr 08, 2025 pm 09:39 PM

Tidak mustahil untuk melihat kata laluan MongoDB secara langsung melalui Navicat kerana ia disimpan sebagai nilai hash. Cara mendapatkan kata laluan yang hilang: 1. Tetapkan semula kata laluan; 2. Periksa fail konfigurasi (mungkin mengandungi nilai hash); 3. Semak Kod (boleh kata laluan Hardcode).

Rancangan Python 2 jam: Pendekatan yang realistik Apr 11, 2025 am 12:04 AM

Anda boleh mempelajari konsep pengaturcaraan asas dan kemahiran Python dalam masa 2 jam. 1. Belajar Pembolehubah dan Jenis Data, 2.

Bagaimana untuk mengoptimumkan prestasi MySQL untuk aplikasi beban tinggi? Apr 08, 2025 pm 06:03 PM

Panduan Pengoptimuman Prestasi Pangkalan Data MySQL Dalam aplikasi yang berintensifkan sumber, pangkalan data MySQL memainkan peranan penting dan bertanggungjawab untuk menguruskan urus niaga besar-besaran. Walau bagaimanapun, apabila skala aplikasi berkembang, kemunculan prestasi pangkalan data sering menjadi kekangan. Artikel ini akan meneroka satu siri strategi pengoptimuman prestasi MySQL yang berkesan untuk memastikan aplikasi anda tetap cekap dan responsif di bawah beban tinggi. Kami akan menggabungkan kes-kes sebenar untuk menerangkan teknologi utama yang mendalam seperti pengindeksan, pengoptimuman pertanyaan, reka bentuk pangkalan data dan caching. 1. Reka bentuk seni bina pangkalan data dan seni bina pangkalan data yang dioptimumkan adalah asas pengoptimuman prestasi MySQL. Berikut adalah beberapa prinsip teras: Memilih jenis data yang betul dan memilih jenis data terkecil yang memenuhi keperluan bukan sahaja dapat menjimatkan ruang penyimpanan, tetapi juga meningkatkan kelajuan pemprosesan data.

Python: meneroka aplikasi utamanya Apr 10, 2025 am 09:41 AM

Python digunakan secara meluas dalam bidang pembangunan web, sains data, pembelajaran mesin, automasi dan skrip. 1) Dalam pembangunan web, kerangka Django dan Flask memudahkan proses pembangunan. 2) Dalam bidang sains data dan pembelajaran mesin, numpy, panda, scikit-learn dan perpustakaan tensorflow memberikan sokongan yang kuat. 3) Dari segi automasi dan skrip, Python sesuai untuk tugas -tugas seperti ujian automatik dan pengurusan sistem.

Cara Menggunakan AWS Glue Crawler dengan Amazon Athena Apr 09, 2025 pm 03:09 PM

Sebagai profesional data, anda perlu memproses sejumlah besar data dari pelbagai sumber. Ini boleh menimbulkan cabaran kepada pengurusan data dan analisis. Nasib baik, dua perkhidmatan AWS dapat membantu: AWS Glue dan Amazon Athena.

Cara memulakan pelayan dengan redis Apr 10, 2025 pm 08:12 PM

Langkah -langkah untuk memulakan pelayan Redis termasuk: Pasang Redis mengikut sistem operasi. Mulakan perkhidmatan Redis melalui Redis-server (Linux/macOS) atau redis-server.exe (Windows). Gunakan redis-cli ping (linux/macOS) atau redis-cli.exe ping (windows) perintah untuk memeriksa status perkhidmatan. Gunakan klien Redis, seperti redis-cli, python, atau node.js untuk mengakses pelayan.

Bolehkah mysql menyambung ke pelayan SQL Apr 08, 2025 pm 05:54 PM

Tidak, MySQL tidak dapat menyambung terus ke SQL Server. Tetapi anda boleh menggunakan kaedah berikut untuk melaksanakan interaksi data: Gunakan middleware: data eksport dari MySQL ke format pertengahan, dan kemudian mengimportnya ke SQL Server melalui middleware. Menggunakan Pangkalan Data Pangkalan Data: Alat perniagaan menyediakan antara muka yang lebih mesra dan ciri -ciri canggih, pada dasarnya masih dilaksanakan melalui middleware.

See all articles