pandas petua dan kiat untuk meningkatkan kecekapan analisis data
Pengenalan
Dalam bidang analisis data moden, panda ialah perpustakaan Python yang digunakan secara meluas. Ia menyediakan struktur data yang cekap, fleksibel dan kaya serta alatan pemprosesan data, menjadikan analisis data lebih mudah dan cekap. Walau bagaimanapun, untuk benar-benar menyedari potensi panda, adalah penting untuk mengetahui beberapa petua dan helah. Artikel ini akan memperkenalkan beberapa teknik panda untuk meningkatkan kecekapan analisis data dan menyediakan contoh kod khusus.
Dalam analisis data, selalunya perlu melakukan pelbagai pengiraan dan operasi pada data, seperti penambahan, penolakan, pendaraban dan pembahagian, pengiraan purata, statistik kumpulan, dsb. Menggunakan operasi vektorisasi boleh meningkatkan kelajuan pemprosesan data dengan ketara. Banyak fungsi dalam panda menyokong operasi vektorisasi, seperti operasi tambah tambah, operasi tolak sub, operasi darab mul, operasi bahagi div, dsb. Berikut ialah contoh mudah:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) df['C'] = df['A'] + df['B'] # 使用向量化的加法操作 print(df)
Output:
A B C 0 1 5 6 1 2 6 8 2 3 7 10 3 4 8 12
Apabila memproses data, selalunya perlu memilih bahagian yang diperlukan daripada set data berdasarkan syarat tertentu. Fungsi ini boleh dicapai dengan mudah menggunakan pemilihan bersyarat. Pandas menyediakan cara untuk memilih data menggunakan syarat, menggunakan pengindeksan Boolean. Berikut ialah contoh:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) df_selected = df[df['A'] > 2] # 选择A列中大于2的行 print(df_selected)
Output:
A B 2 3 7 3 4 8
Jadual pangsi dalam panda ialah alat yang sangat mudah untuk pengumpulan dan pengagregatan data. Melalui jadual pangsi, anda boleh mengumpulkan data dengan mudah mengikut lajur yang ditentukan dan melaksanakan statistik agregat pada lajur lain. Berikut ialah contoh:
import pandas as pd df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'], 'B': ['one', 'one', 'two', 'two', 'two', 'one'], 'C': [1, 2, 3, 4, 5, 6]}) df_pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum') print(df_pivot)
Output:
B one two A bar 7 6 foo 6 8
Kadangkala, anda perlu melakukan beberapa operasi tersuai pada data. Dalam panda, anda boleh menggunakan fungsi apply untuk mencapai tujuan ini. Fungsi guna boleh menerima fungsi tersuai sebagai parameter dan menggunakannya pada setiap baris atau lajur set data. Berikut ialah contoh:
import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]}) def custom_operation(row): return row['A'] + row['B'] df['C'] = df.apply(custom_operation, axis=1) print(df)
Output:
A B C 0 1 5 6 1 2 6 8 2 3 7 10 3 4 8 12
Kesimpulan
Artikel ini memperkenalkan beberapa petua dan kiat panda untuk meningkatkan kecekapan analisis data, termasuk menggunakan operasi vektorisasi, menggunakan syarat untuk memilih data dan menggunakan jadual pangsi untuk data pengelompokan dan pengagregatan Dan gunakan fungsi guna untuk operasi tersuai. Dengan menguasai kemahiran ini, anda boleh melakukan kerja analisis data dengan lebih cekap dan meningkatkan kecekapan kerja. Sudah tentu, ini hanya sebahagian daripada fungsi panda, dan terdapat banyak ciri hebat lain yang menunggu untuk kita terokai. Saya harap artikel ini telah memberi inspirasi kepada pembaca dan boleh memainkan peranan yang lebih besar dalam kerja analisis data harian.
Atas ialah kandungan terperinci Petua dan kaedah untuk mengoptimumkan analisis data panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!