Mengendalikan Pemisah Bukan Tetap dalam Pandas read_csv
Semasa membaca data daripada fail menggunakan kaedah read_csv dalam panda, anda mungkin menghadapi pelbagai pemisah dalam lajur anda. Sesetengah medan mungkin dipisahkan oleh tab, manakala yang lain mempunyai pemisahan ruang putih yang tidak konsisten (cth., 2-3 ruang atau ruang dan tab bercampur).
Bolehkah panda menavigasi ketidakteraturan ini dengan berkesan?
Tidak seperti Python's kaedah line.split(), pandas' read_csv() mungkin bergelut untuk menampung pemisah tidak seragam tersebut. Walau bagaimanapun, terdapat penyelesaian untuk menangani isu ini:
Menggunakan Pembatas Regex:
Parameter pembatas dalam read_csv() boleh menerima ungkapan biasa. Menggunakan "s", anda boleh mengarahkan panda untuk merawat sebarang aksara ruang putih (termasuk ruang dan tab) sebagai pembatas:
<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
Menggunakan delim_whitespace:
Untuk kes apabila pemisah adalah ruang kosong (ruang atau tab), anda boleh memudahkan kod anda menggunakan parameter delim_whitespace:
<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
Atas ialah kandungan terperinci Bolehkah Panda Mengendalikan Pemisah Tidak Seragam dengan Berkesan dalam Input CSV?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!