Bagaimana untuk Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv?

Barbara Streisand
Lepaskan: 2024-10-22 08:20:02
asal
437 orang telah melayarinya

How to Handle Irregular Separators in Pandas read_csv?

Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv

Pustaka Python panda menyediakan kaedah yang mudah, read_csv, untuk mengimport data daripada fail ke dalam bingkai data. Walau bagaimanapun, apabila berurusan dengan fail yang mempunyai pemisah yang tidak teratur, seperti gabungan ruang dan tab dengan nombor yang berbeza-beza, panda mungkin menghadapi kesukaran.

Masalah:

Bagaimana boleh satu tentukan pemisah tidak teratur untuk kaedah read_csv dalam panda untuk mentafsir data dengan betul daripada fail dengan ruang putih yang tidak konsisten?

Jawapan:

Untuk mengatasi isu ini, panda menawarkan dua pilihan:

  1. Ungkapan Biasa (regex):

    Menggunakan regex membolehkan padanan tepat pemisah tidak teratur. Contohnya, untuk memadankan pemisah yang sama ada tab (t), satu atau lebih ruang (s), atau gabungan kedua-duanya, seseorang boleh menggunakan regex:

    <code class="python">delim_regex = r"\s+|\t|\s+\t+\s+"
    
    pd.read_csv("whitespace.csv", delimiter=delim_regex, header=None)</code>
    Salin selepas log masuk
  2. delim_whitespace=True:

    Panda menyediakan pilihan yang lebih mudah untuk mengendalikan pemisah berasaskan ruang putih tidak teratur menggunakan parameter delim_whitespace. Apabila ditetapkan kepada Benar, ia akan menganggap mana-mana ruang putih (termasuk tab) sebagai pemisah.

    <code class="python">pd.read_csv("whitespace.csv", delim_whitespace=True, header=None)</code>
    Salin selepas log masuk

Kedua-dua pendekatan mengendalikan pemisah tidak teratur dengan berkesan, memastikan data diimport dengan betul ke dalam data panda bingkai. Perlu diingat bahawa kaedah pemisahan Python asli mungkin lebih sesuai untuk kes sedemikian, kerana ia tidak memerlukan menentukan corak pemisah. Walau bagaimanapun, untuk tugas manipulasi data yang lebih kompleks, panda menyediakan set alat yang komprehensif yang boleh disepadukan dengan mudah dengan ungkapan biasa atau parameter delim_whitespace.

Atas ialah kandungan terperinci Bagaimana untuk Mengendalikan Pemisah Tidak Teratur dalam Pandas read_csv?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!