Bagaimanakah saya boleh mengelakkan 'DtypeWarning' dalam Pandas read_csv dan meningkatkan kecekapan pengendalian data?

Barbara Streisand

Lepaskan： 2024-11-07 01:31:02

asal

383 orang telah melayarinya

How can I avoid the

Panda read_csv: low_memory and dtype options

Apabila menggunakan fungsi read_csv Pandas, adalah perkara biasa untuk menemui "DtypeWarning: Columns 4,5,7,16) mempunyai jenis campuran Tentukan pilihan dtype pada import atau tetapkan low_memory=False." kesilapan. Memahami perhubungan antara pilihan low_memory dan dtype boleh membantu menyelesaikan isu ini dan memperbaik pengendalian data.

Pemberhentian low_memory

Pilihan low_memory ditandakan sebagai tidak digunakan lagi dalam Pandas kerana ia tidak menawarkan faedah sebenar dalam meningkatkan kecekapan. Meneka djenis untuk setiap lajur ialah proses intensif memori yang berlaku tanpa mengira tetapan memori_rendah.

Menentukan djenis

Daripada menggunakan memori_rendah, ia disyorkan untuk secara eksplisit nyatakan dtypes untuk setiap lajur. Ini membolehkan Panda mengelak meneka dan meminimumkan risiko ralat jenis data di kemudian hari. Contohnya, dtype={'user_id':int} akan memastikan bahawa lajur user_id dianggap sebagai data integer.

Dtype Teka dan Kebimbangan Memori

Teka dtypes menggunakan memori kerana Pandas menganalisis keseluruhan fail data sebelum menentukan jenis yang sesuai. Untuk set data yang besar, analisis ini mungkin memerlukan sumber memori. Menentukan djenis secara eksplisit menghapuskan overhed ini.

Contoh Kegagalan Data

Menentukan djenis boleh mengelakkan percanggahan data. Katakan fail mengandungi lajur user_id yang terdiri daripada integer tetapi mempunyai baris akhir dengan teks "foobar." Jika djenis int ditentukan, pemuatan data akan gagal, menyerlahkan kepentingan menentukan djenis dengan tepat.

Dtypes yang tersedia

Panda menawarkan pelbagai jenis d , termasuk float, int, bool, timedelta64[ns], datetime64[ns], 'datetime64[ns, ] (sedar zon masa), 'kategori' (enum), 'tempoh[]' (sauh kepada khusus tempoh masa), 'Jarang' (data jarang), 'Selang' (untuk pengindeksan), dan integer boleh null (Int8-Int64) dan 'rentetan' (memberi akses kepada atribut .str).

Semasa menetapkan dtype=object menyekat amaran, ia tidak meningkatkan kecekapan memori. Selain itu, tetapan dtype=unicode tidak berkesan kerana unicode diwakili sebagai objek dalam numpy.

Alternatif kepada low_memory

Penukar boleh digunakan untuk mengendalikan data yang tidak' t sesuai dtype yang ditentukan. Walau bagaimanapun, penukar adalah berat dari segi pengiraan dan harus digunakan sebagai pilihan terakhir. Pemprosesan selari juga boleh dipertimbangkan, tetapi itu di luar skop fungsi read_csv proses tunggal Pandas.

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengelakkan 'DtypeWarning' dalam Pandas read_csv dan meningkatkan kecekapan pengendalian data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!