Petua praktikal dan langkah berjaga-jaga untuk membaca fail CSV dengan panda
Ikhtisar:
Dengan peningkatan kepentingan pemprosesan dan analisis data, panda telah menjadi salah satu perpustakaan Python yang paling biasa digunakan dalam bidang sains data. Pandas menyediakan analisis data yang kaya dan fungsi pemprosesan, dan CSV (nilai dipisahkan koma) ialah format storan data biasa. Artikel ini akan memperkenalkan petua praktikal untuk membaca fail CSV dengan panda dan beberapa perkara yang perlu diberi perhatian.
import pandas as pd
read_csv()
panda. Secara lalai, fungsi ini mengambil koma sebagai pembatas. read_csv()
函数。默认情况下,该函数将逗号作为分隔符。data = pd.read_csv('data.csv')
上述代码将读取名为"data.csv"的文件,并将其保存到名为"data"的变量中。如果文件和代码不在同一目录下,需要提供完整的文件路径。
head()
函数来查看前几行数据,默认值为前5行。data.head()
另外,可使用tail()
函数来查看最后几行数据。
read_csv()
函数使用逗号作为分隔符。但是在实际应用中,数据可能使用其他分隔符,比如制表符或分号。可以通过sep
参数来指定分隔符。data = pd.read_csv('data.csv', sep=' ') # 使用制表符作为分隔符
有时候,CSV文件可能使用不同的编码方式保存,可能需要指定encoding
参数来正确读取数据。
data = pd.read_csv('data.csv', encoding='utf-8')
na_values
参数来指定要将哪些值视为缺失值。data = pd.read_csv('data.csv', na_values=['NA', 'NULL'])
column1 = data['column_name'] # 使用列名选择 column2 = data.iloc[:, 0] # 使用索引号选择
skiprows
参数来跳过指定数量的行。data = pd.read_csv('data.csv', skiprows=10) # 跳过前10行
还可以使用nrows
参数来限制读取的行数。
data = pd.read_csv('data.csv', nrows=100) # 只读取前100行
parse_dates
参数将某一列或多列解析为日期时间类型。data = pd.read_csv('data.csv', parse_dates=['date_column']) # 将名为'date_column'的列解析为日期时间类型
skiprows
参数跳过标题行。data = pd.read_csv('data.csv', skiprows=1) # 跳过首行
header
header_list = ['column1', 'column2', 'column3'] # 标题列表 data = pd.read_csv('data.csv', header=None, names=header_list) # 添加标题
Selepas membaca fail CSV, operasi biasa ialah melihat beberapa baris pertama data atau keseluruhan set data. Anda boleh menggunakan fungsi head()
untuk melihat beberapa baris pertama data Nilai lalai ialah 5 baris pertama.
tail()
untuk melihat beberapa baris terakhir data. 🎜read_csv()
menggunakan koma sebagai pembatas. Tetapi dalam aplikasi sebenar, data mungkin menggunakan pembatas lain, seperti tab atau titik bertitik. Pemisah boleh ditentukan melalui parameter sep
. 🎜🎜rrreee🎜Kadangkala, fail CSV mungkin disimpan menggunakan kaedah pengekodan yang berbeza dan anda mungkin perlu menentukan parameter na_values
untuk menentukan nilai yang akan dianggap tiada. 🎜🎜rrreeeskiprows
untuk melangkau bilangan baris yang ditentukan. 🎜🎜rrreee🎜Anda juga boleh menggunakan parameter nrows
untuk mengehadkan bilangan baris yang dibaca. 🎜rrreeeparse_dates
untuk menghuraikan lajur atau berbilang lajur ke dalam jenis tarikh dan masa. 🎜🎜rrreeeskiprows
. 🎜🎜rrreeeheader
untuk menambahkan pengepala pada set data secara manual. 🎜🎜rrreee🎜Di atas ialah beberapa petua praktikal dan langkah berjaga-jaga apabila membaca fail CSV dengan panda. Semoga petua ini akan membantu anda memproses dan menganalisis data dengan lebih baik. Membaca fail CSV menggunakan panda memudahkan anda memuatkan data ke dalam ingatan dan memanfaatkan keupayaan pemprosesan data panda yang berkuasa untuk analisis dan visualisasi lanjut. 🎜🎜 (Nota: Kod contoh di atas adalah untuk rujukan sahaja, dan aplikasi khusus boleh dilaraskan mengikut situasi sebenar.) 🎜Atas ialah kandungan terperinci Petua praktikal dan langkah berjaga-jaga untuk membaca fail CSV dalam panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!