Mengatasi Tarikh Hilang dalam Pandas DataFrames
Apabila menganalisis data dengan bingkai data Pandas, adalah perkara biasa untuk menghadapi senario di mana terdapat jurang atau tarikh hilang dalam set data. Ini boleh membawa kepada kesukaran semasa merancang atau memanipulasi data.
Sebagai contoh, pertimbangkan bingkai data yang terdapat berbilang peristiwa pada beberapa tarikh tetapi tiada acara pada tarikh lain. Walaupun saiz pembolehubah idx (julat tarikh) kekal malar, siri s (mewakili kiraan peristiwa mengikut tarikh) mungkin hanya mengandungi subset tarikh dalam idx. Akibatnya, percubaan untuk merancang siri ini boleh menyebabkan ralat, kerana saiz kedua-dua set data tidak sepadan.
Satu pendekatan untuk menyelesaikan isu ini ialah dengan menambahkan tarikh yang hilang pada siri s dengan kiraan 0. Ini akan membolehkan graf lengkap dengan nilai 0 untuk tarikh tanpa peristiwa. Untuk mencapai matlamat ini, anda boleh menggunakan kaedah indeks semula Siri Pandas.
Kaedah indeks semula membolehkan anda menentukan indeks dengan nilai yang tiada dan mengisi nilai tersebut dengan nilai yang ditentukan. Dalam kes ini, anda boleh menyediakan siri idx sebagai indeks baharu dan menetapkan nilai isian 0 untuk tarikh yang tiada.
Berikut ialah contoh:
import pandas as pd idx = pd.date_range('09-01-2013', '09-30-2013') s = df.groupby(['simpleDate']).size() s.index = pd.DatetimeIndex(s.index) s = s.reindex(idx, fill_value=0)
Kod ini akan mencipta satu siri s yang merangkumi semua tarikh dalam julat idx, dengan nilai 0 untuk tarikh yang pada asalnya tidak terdapat dalam s. Anda kemudiannya boleh memplot siri ini terhadap tarikh dalam idx untuk mendapatkan graf lengkap dengan tarikh yang tiada diwakili sebagai nilai sifar.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengendalikan Tarikh Hilang dalam Pandas DataFrames untuk Memplot Tepat?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!