Data siri masa ialah urutan pemerhatian yang dikumpul pada selang masa tetap. Data boleh datang dari mana-mana bidang, seperti kewangan, ekonomi, kesihatan dan sains alam sekitar. Data siri masa yang kami kumpul kadangkala mungkin mempunyai frekuensi atau resolusi yang berbeza, yang mungkin tidak sesuai untuk analisis dan proses pemodelan data kami. Dalam kes ini, kita boleh sampel semula data siri masa dengan pensampelan naik atau turun, sekali gus menukar kekerapan atau resolusi siri masa. Artikel ini akan memperkenalkan kaedah yang berbeza untuk upsample atau downsample data siri masa.
Upsampling bermaksud meningkatkan kekerapan data siri masa Ini biasanya dilakukan apabila kita memerlukan resolusi yang lebih tinggi atau pemerhatian yang lebih kerap Python menyediakan beberapa kaedah untuk meningkatkan data siri masa, termasuk interpolasi linear, jiran terdekat. interpolasi, dan interpolasi polinomial.
DataFrame.resample(rule, *args, **kwargs) DataFrame.asfreq(freq, method=None) DataFrame.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction='forward', limit_area=None)
Di sini,
Fungsi resample ialah kaedah yang disediakan oleh pustaka panda untuk sampel semula data siri masa Ia digunakan pada DataFrame dan mengambil parameter peraturan, yang menentukan kekerapan yang dikehendaki untuk pensampelan semula. Argumen tambahan (*args) dan argumen kata kunci (**kwargs) boleh disediakan untuk menyesuaikan gelagat pensampelan semula, seperti menentukan kaedah pengagregatan atau mengendalikan nilai yang tiada.
Kaedah asfreq digunakan bersama-sama dengan fungsi sampel semula untuk menukar frekuensi data siri masa Ia mengambil parameter freq, yang menentukan rentetan frekuensi yang dikehendaki output. Parameter kaedah pilihan membenarkan menentukan cara mengendalikan sebarang nilai yang hilang yang diperkenalkan semasa proses pensampelan semula, seperti pengisian ke hadapan, pengisian ke belakang atau interpolasi.
Kaedah interpolasi digunakan untuk mengisi nilai yang hilang atau jurang dalam data siri masa. Ia interpolasi mengikut kaedah yang ditentukan (cth. 'linear', 'terhampir', 'spline') untuk menganggar nilai antara cerapan sedia ada. Parameter tambahan boleh mengawal paksi interpolasi, had padding untuk nilai NaN berturut-turut dan sama ada untuk mengubah suai DataFrame di tempat atau mengembalikan DataFrame baharu.
Interpolasi linear digunakan untuk meningkatkan data siri masa. Ia mengisi jurang dengan melukis garis lurus antara titik data. Interpolasi linear boleh dilaksanakan menggunakan fungsi resample dalam perpustakaan panda.
Terjemahan bahasa Cina bagiDalam contoh di bawah, kami mempunyai DataFrame siri masa dengan tiga pemerhatian pada tarikh bukan berturut-turut Kami menukar lajur 'Tarikh' kepada format masa tarikh dan menetapkannya sebagai indeks Fungsi sampel semula data kepada frekuensi harian ('D') menggunakan kaedah asfreq Akhir sekali, kaedah interpolasi dengan pilihan 'linear' mengisi jurang antara titik data menggunakan interpolasi linear, df_upsampled, mengandungi data siri masa yang telah ditambah nilai.
import pandas as pd # Create a sample time series DataFrame data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'], 'Value': [10, 20, 30]} df = pd.DataFrame(data) df['Date'] = pd.to_datetime(df['Date']) df.set_index('Date', inplace=True) # Upsample the data using linear interpolation df_upsampled = df.resample('D').asfreq().interpolate(method='linear') # Print the upsampled DataFrame print(df_upsampled)
Value Date 2023-06-01 10.000000 2023-06-02 15.000000 2023-06-03 20.000000 2023-06-04 23.333333 2023-06-05 26.666667 2023-06-06 30.000000
Interpolasi jiran terdekat ialah kaedah mudah yang mengisi kekosongan antara titik data dengan pemerhatian terdekat yang tersedia. Kaedah ini boleh berguna apabila siri masa menunjukkan perubahan mendadak atau apabila susunan pemerhatian penting digunakan dengan pilihan 'terdekat' untuk melakukan interpolasi jiran terdekat
. Terjemahan bahasa Cina bagiDalam contoh di atas, kami menggunakan DataFrame asal yang sama seperti sebelum ini Selepas pensampelan semula dengan frekuensi 'D', kaedah interpolasi dengan pilihan 'terhampir' mengisi jurang dengan menyalin dataFrame yang terhasil. df_upsampled, kini mempunyai kekerapan harian dengan interpolasi jiran terdekat.
import pandas as pd # Create a sample time series DataFrame data = {'Date': ['2023-06-01', '2023-06-03', '2023-06-06'], 'Value': [10, 20, 30]} df = pd.DataFrame(data) df['Date'] = pd.to_datetime(df['Date']) df.set_index('Date', inplace=True) # Upsample the data using nearest neighbor interpolation df_upsampled = df.resample('D').asfreq().interpolate(method='nearest') # Print the upsampled DataFrame print(df_upsampled)
Value Date 2023-06-01 10.0 2023-06-02 10.0 2023-06-03 20.0 2023-06-04 20.0 2023-06-05 30.0 2023-06-06 30.0
Downsampling digunakan untuk mengurangkan kekerapan data siri masa, biasanya untuk mendapatkan paparan data yang lebih luas atau untuk memudahkan analisis. Python menawarkan teknik pensampelan turun yang berbeza, seperti purata, menjumlahkan atau memaksimumkan nilai dalam selang masa tertentu.
DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None, **kwargs)
Di sini, kaedah pengagregatan, seperti min, jumlah atau maksimum , digunakan selepas pensampelan semula untuk mengira nilai tunggal yang mewakili pemerhatian berkumpulan dalam setiap selang pensampelan semula. Kaedah ini biasanya digunakan semasa menurunkan sampel data. Ia boleh digunakan secara langsung pada DataFrame sampel semula, atau ia boleh digunakan bersama dengan fungsi pensampelan semula untuk mengagregat data berdasarkan kekerapan tertentu (seperti mingguan atau bulanan) dengan menyatakan peraturan yang sesuai.
Terjemahan bahasa Cina bagiMin pensampelan rendah mengira purata titik data dalam setiap selang. Kaedah ini berguna apabila memproses data frekuensi tinggi dan mendapatkan nilai perwakilan untuk setiap selang. Anda boleh menggunakan fungsi sampel semula bersama-sama dengan kaedah min untuk melaksanakan pensampelan turun min.
In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the mean method, we obtain the average value within each week. The resulting DataFrame, df_downsampled, contains the mean-downsampled time series data.
import pandas as pd # Create a sample time series DataFrame with daily frequency data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'), 'Value': range(30)} df = pd.DataFrame(data) df.set_index('Date', inplace=True) # Downsampling using mean df_downsampled = df.resample('W').mean() # Print the downsampled DataFrame print(df_downsampled)
Value Date 2023-06-04 1.5 2023-06-11 7.0 2023-06-18 14.0 2023-06-25 21.0 2023-07-02 27.0
最大降采样计算并设置每个间隔内的最高值。此方法适用于识别时间序列中的峰值或极端事件。在前面的示例中使用max而不是mean或sum允许我们执行最大降采样。
In the below example, we start with a daily time series DataFrame spanning the entire month of June 2023. The resample function with the 'W' frequency downsamples the data to weekly intervals. By applying the max method, we obtain the Maximum value within each week. The resulting DataFrame, df_downsampled, contains the maximum-downsampled time series data.
import pandas as pd # Create a sample time series DataFrame with daily frequency data = {'Date': pd.date_range(start='2023-06-01', end='2023-06-30', freq='D'), 'Value': range(30)} df = pd.DataFrame(data) df.set_index('Date', inplace=True) # Downsampling using mean df_downsampled = df.resample('W').max() # Print the downsampled DataFrame print(df_downsampled)
Value Date 2023-06-04 3 2023-06-11 10 2023-06-18 17 2023-06-25 24 2023-07-02 29
在本文中,我们讨论了如何使用Python对时间序列数据进行重新采样。Python提供了各种上采样和下采样技术。我们探讨了线性和最近邻插值用于上采样,以及均值和最大值插值用于下采样。您可以根据手头的问题使用任何一种上采样或下采样技术。
Atas ialah kandungan terperinci Bagaimana untuk mengambil semula data siri masa dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!