Pandas ialah alat analisis data dalam Python, terutamanya sesuai untuk membersihkan, memproses dan menganalisis data. Semasa proses analisis data, kita selalunya perlu membaca fail data dalam pelbagai format, seperti fail Txt. Walau bagaimanapun, beberapa masalah akan dihadapi semasa operasi tertentu. Artikel ini akan memperkenalkan jawapan kepada soalan biasa tentang membaca fail txt dengan panda dan memberikan contoh kod yang sepadan.
Soalan 1: Bagaimana hendak membaca fail txt?
Gunakan fungsi read_csv() panda untuk membaca fail txt. Ini kerana fungsi pd.read_csv() direka untuk membaca sebarang jenis fail yang dibataskan, jadi kami hanya perlu menetapkan parameter mengikut situasi tertentu.
Kod sampel:
import pandas as pd df = pd.read_csv('data.txt', sep=' ')
Dalam kod di atas, kami menggunakan fungsi read_csv() untuk membaca fail bernama data.txt dan menetapkan pembatas fail kepada aksara tab ( ). Dalam aplikasi praktikal, kami juga perlu menetapkan parameter lain mengikut situasi sebenar fail, seperti pengepala, pengekodan, dsb.
Soalan 2: Bagaimana untuk menangani nilai nol dalam fail txt?
Apabila membaca fail txt, kadangkala nilai nol seperti "" atau "na" akan muncul. Pada ketika ini, kita boleh menggunakan fungsi replace() panda untuk menggantikannya dengan nilai NaN dalam numpy.
Kod sampel:
import pandas as pd import numpy as np df = pd.read_csv('data.txt', sep=' ') df.replace(["", "na"], np.nan, inplace=True)
Dalam kod di atas, fungsi replace() menggantikan nilai "" dan "na" dalam data dengan nilai kosong NaN, dan menyimpan hasilnya ke kerangka data asal.
Soalan 3: Bagaimana menangani format tarikh dalam fail txt?
Dalam fail txt, format tarikh mungkin muncul dalam format yang berbeza dan tidak boleh dibaca secara langsung. Pada ketika ini, kita boleh menggunakan fungsi pandas.to_datetime() untuk menukarnya kepada format tarikh dalam panda.
Kod sampel:
import pandas as pd df = pd.read_csv('data.txt', sep=' ') df['date'] = pd.to_datetime(df['date'], format="%Y-%m-%d")
Dalam kod di atas, fungsi to_datetime() menukar rentetan tarikh dalam lajur tarikh kepada format tarikh panda dan menetapkan format tarikh kepada "%Y-%m-%d". Format parameter format sepadan dengan format sebenar tarikh.
Soalan 4: Bagaimana untuk menangani data pendua dalam fail txt?
Kadangkala, akan ada data pendua dalam fail txt Pada masa ini, kita boleh menggunakan fungsi drop_duplicates() panda untuk menapis data pendua.
Kod sampel:
import pandas as pd df = pd.read_csv('data.txt', sep=' ') df.drop_duplicates(inplace=True)
Dalam kod di atas, fungsi drop_duplicates() akan memadamkan data pendua dalam bingkai data dan menyimpan hasilnya ke bingkai data asal.
Soalan 5: Bagaimana untuk menangani lajur kosong dalam fail txt?
Dalam fail txt, kadangkala lajur kosong muncul. Pada ketika ini, kita boleh menggunakan fungsi drop() panda untuk memadamkannya.
Kod sampel:
import pandas as pd df = pd.read_csv('data.txt', sep=' ') df.dropna(axis=1, how='all', inplace=True)
Dalam kod di atas, fungsi drop() akan memadamkan lajur dalam bingkai data di mana semua nilai adalah nilai nol NaN, dan menyimpan hasilnya ke bingkai data asal.
Ringkasan:
Dalam analisis data, membaca data adalah operasi yang sangat asas dan perlu. Artikel ini memperkenalkan masalah biasa yang dihadapi apabila panda membaca fail txt dan menyediakan penyelesaian serta contoh kod. Pembaca boleh melaraskan parameter dan kaedah mengikut proses permohonan sebenar untuk menyelesaikan masalah dengan berkesan dalam proses pembacaan dan pembersihan data.
Atas ialah kandungan terperinci Soalan Lazim untuk panda membaca fail txt. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!