Untuk membuat data Pandas DataFrame dari fail CSV, anda akan menggunakan fungsi pandas.read_csv()
. Fungsi ini adalah sebahagian daripada perpustakaan Pandas di Python, yang digunakan secara meluas untuk manipulasi dan analisis data. Inilah panduan langkah demi langkah mengenai cara melakukannya:
Pasang Pandas : Pertama, pastikan anda memasang Pandas. Anda boleh memasangnya menggunakan PIP jika anda belum melakukannya:
<code>pip install pandas</code>
Import Pandas : Seterusnya, Import Perpustakaan Pandas ke dalam skrip Python anda atau buku nota Jupyter:
<code class="python">import pandas as pd</code>
Baca fail CSV : Gunakan fungsi read_csv()
untuk membaca fail CSV ke dalam data dataframe. Anda perlu menyediakan laluan fail sebagai hujah:
<code class="python">df = pd.read_csv('path_to_your_file.csv')</code>
Gantikan 'path_to_your_file.csv'
dengan laluan sebenar ke fail CSV anda.
Terokai DataFrame : Selepas memuatkan data, anda boleh mula meneroka menggunakan pelbagai fungsi panda. Contohnya:
<code class="python">print(df.head()) # Displays the first few rows of the DataFrame print(df.info()) # Shows information about the DataFrame, including column data types and non-null counts</code>
Prosedur asas ini membolehkan anda membuat dataFrame dari fail CSV. Fleksibiliti pd.read_csv()
merangkumi pelbagai parameter untuk mengendalikan pelbagai format data dan isu, yang akan kita bincangkan dalam bahagian berikut.
Apabila menggunakan pd.read_csv()
, terdapat beberapa parameter yang biasa digunakan yang meningkatkan fleksibiliti dan kawalan ke atas bagaimana fail CSV dibaca ke dalam DataFrame. Berikut adalah beberapa yang paling banyak digunakan:
sep
atau delimiter
: Menentukan pembatas yang digunakan dalam fail CSV. Secara lalai, ia ditetapkan kepada ','
, tetapi anda boleh mengubahnya kepada watak lain jika diperlukan, seperti '\t'
untuk nilai yang dipisahkan tab.header
: Menentukan baris mana yang hendak digunakan sebagai nama lajur. Ia mungkir kepada 0
, bermakna baris pertama digunakan. Anda boleh menetapkannya kepada None
jika fail CSV anda tidak mempunyai baris header.names
: Digunakan untuk menentukan nama lajur jika fail CSV tidak mempunyai tajuk. Ia harus menjadi senarai rentetan.index_col
: Menentukan lajur mana yang hendak digunakan sebagai indeks DataFrame. Boleh menjadi nama lajur tunggal atau senarai nama lajur untuk pelbagai indeks.usecols
: Menentukan lajur mana yang hendak dibaca, yang boleh berguna untuk mengendalikan dataset besar. Anda boleh lulus senarai nama lajur atau indeks.dtype
: Menentukan jenis data untuk satu atau lebih lajur. Ia boleh menjadi nama lajur pemetaan kamus ke jenis data.na_values
: Menentukan rentetan tambahan untuk dikenali sebagai NA/NAN. Ia boleh menjadi rentetan atau senarai rentetan.skiprows
: Menentukan baris untuk melangkau pada permulaan fail, boleh menjadi integer atau senarai bilangan bulat.nrows
: Hadkan bilangan baris untuk dibaca dari fail, berguna untuk membaca subset fail besar.encoding
: Menentukan pengekodan yang digunakan untuk menyahkod fail, seperti 'utf-8'
atau 'latin1'
.Parameter ini membolehkan anda menyesuaikan proses bacaan untuk memenuhi keperluan data khusus anda, memastikan data diimport dengan betul ke dalam data data anda.
Mengendalikan data yang hilang dengan berkesan adalah penting apabila mengimport fail CSV ke dalam data data Pandas. Pandas menyediakan pelbagai kaedah untuk mengurus dan memanipulasi nilai yang hilang semasa proses import:
Mengenal pasti nilai -nilai yang hilang : Secara lalai, Pandas mengiktiraf perwakilan biasa data yang hilang, seperti NaN
, NA
, atau rentetan kosong. Anda juga boleh menentukan rentetan tambahan untuk diiktiraf sebagai hilang menggunakan parameter na_values
:
<code class="python">df = pd.read_csv('path_to_your_file.csv', na_values=['', 'NA', 'n/a', 'None'])</code>
Mengisi Nilai Hilang : Sebaik sahaja DataFrame dibuat, anda boleh menggunakan kaedah seperti fillna()
untuk menggantikan data yang hilang dengan nilai tertentu, min, median, atau pengiraan lain:
<code class="python">df['column_name'].fillna(df['column_name'].mean(), inplace=True)</code>
Menurunkan nilai yang hilang : Jika baris atau lajur dengan nilai yang hilang tidak berguna, anda boleh menggugurkannya menggunakan dropna()
:
<code class="python">df.dropna(inplace=True) # Drops rows with any missing values df.dropna(axis=1, inplace=True) # Drops columns with any missing values</code>
Interpolasi : Untuk data berangka, pandas menyokong interpolasi nilai yang hilang menggunakan kaedah interpolate()
:
<code class="python">df['column_name'].interpolate(inplace=True)</code>
Dengan menggunakan kaedah ini secara strategik, anda boleh menguruskan data yang hilang dengan berkesan apabila mengimport dan memproses fail CSV ke dalam data data PANDAS.
Pandas membolehkan anda secara jelas menetapkan jenis data lajur apabila membaca fail CSV, yang boleh menjadi penting untuk prestasi dan integriti data. Berikut adalah pilihan yang tersedia untuk menentukan jenis data:
Parameter dtype
: Anda boleh lulus kamus ke parameter dtype
read_csv()
untuk menentukan jenis data untuk setiap lajur. Contohnya:
<code class="python">df = pd.read_csv('path_to_your_file.csv', dtype={'column_name': 'int64', 'another_column': 'float64'})</code>
Penukar : Jika anda memerlukan lebih banyak kawalan ke atas penukaran lajur tertentu, anda boleh menggunakan parameter converters
. Ini membolehkan anda menentukan fungsi tersuai untuk menukar data:
<code class="python">df = pd.read_csv('path_to_your_file.csv', converters={'date_column': pd.to_datetime})</code>
Parameter parse_dates
: Parameter ini membolehkan anda menentukan lajur yang harus dihuraikan sebagai objek DateTime. Ia boleh menjadi senarai nama lajur atau nama lajur pemetaan kamus ke format:
<code class="python">df = pd.read_csv('path_to_your_file.csv', parse_dates=['date_column']) df = pd.read_csv('path_to_your_file.csv', parse_dates={'date_time': ['date', 'time']})</code>
Selepas Import : Jika anda lebih suka mengendalikan penukaran jenis data selepas import, anda boleh menggunakan kaedah astype()
pada dataFrame:
<code class="python">df['column_name'] = df['column_name'].astype('float64')</code>
Menggunakan pilihan ini membolehkan anda memastikan data dibaca ke dalam data data anda dengan jenis data yang betul, yang dapat meningkatkan kecekapan operasi data berikutnya dan memastikan integriti data.
Atas ialah kandungan terperinci Bagaimana anda membuat data Pandas DataFrame dari fail CSV?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!