Petua dan kaedah untuk mengoptimumkan analisis data panda

PHPz
Lepaskan: 2024-01-13 14:19:17
asal
1161 orang telah melayarinya

Petua dan kaedah untuk mengoptimumkan analisis data panda

pandas petua dan kiat untuk meningkatkan kecekapan analisis data

Pengenalan

Dalam bidang analisis data moden, panda ialah perpustakaan Python yang digunakan secara meluas. Ia menyediakan struktur data yang cekap, fleksibel dan kaya serta alatan pemprosesan data, menjadikan analisis data lebih mudah dan cekap. Walau bagaimanapun, untuk benar-benar menyedari potensi panda, adalah penting untuk mengetahui beberapa petua dan helah. Artikel ini akan memperkenalkan beberapa teknik panda untuk meningkatkan kecekapan analisis data dan menyediakan contoh kod khusus.

  1. Gunakan operasi vektorisasi

Dalam analisis data, selalunya perlu melakukan pelbagai pengiraan dan operasi pada data, seperti penambahan, penolakan, pendaraban dan pembahagian, pengiraan purata, statistik kumpulan, dsb. Menggunakan operasi vektorisasi boleh meningkatkan kelajuan pemprosesan data dengan ketara. Banyak fungsi dalam panda menyokong operasi vektorisasi, seperti operasi tambah tambah, operasi tolak sub, operasi darab mul, operasi bahagi div, dsb. Berikut ialah contoh mudah:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df['C'] = df['A'] + df['B']  # 使用向量化的加法操作

print(df)
Salin selepas log masuk

Output:

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12
Salin selepas log masuk
Salin selepas log masuk
  1. Menggunakan syarat untuk memilih data

Apabila memproses data, selalunya perlu memilih bahagian yang diperlukan daripada set data berdasarkan syarat tertentu. Fungsi ini boleh dicapai dengan mudah menggunakan pemilihan bersyarat. Pandas menyediakan cara untuk memilih data menggunakan syarat, menggunakan pengindeksan Boolean. Berikut ialah contoh:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df_selected = df[df['A'] > 2]  # 选择A列中大于2的行

print(df_selected)
Salin selepas log masuk

Output:

   A  B
2  3  7
3  4  8
Salin selepas log masuk
  1. Menggunakan jadual pangsi untuk pengumpulan dan pengagregatan data

Jadual pangsi dalam panda ialah alat yang sangat mudah untuk pengumpulan dan pengagregatan data. Melalui jadual pangsi, anda boleh mengumpulkan data dengan mudah mengikut lajur yang ditentukan dan melaksanakan statistik agregat pada lajur lain. Berikut ialah contoh:

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'two', 'two', 'one'],
                   'C': [1, 2, 3, 4, 5, 6]})

df_pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum')

print(df_pivot)
Salin selepas log masuk

Output:

B    one  two
A            
bar    7    6
foo    6    8
Salin selepas log masuk
  1. Gunakan fungsi guna untuk operasi tersuai

Kadangkala, anda perlu melakukan beberapa operasi tersuai pada data. Dalam panda, anda boleh menggunakan fungsi apply untuk mencapai tujuan ini. Fungsi guna boleh menerima fungsi tersuai sebagai parameter dan menggunakannya pada setiap baris atau lajur set data. Berikut ialah contoh:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

def custom_operation(row):
    return row['A'] + row['B']

df['C'] = df.apply(custom_operation, axis=1)

print(df)
Salin selepas log masuk

Output:

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12
Salin selepas log masuk
Salin selepas log masuk

Kesimpulan

Artikel ini memperkenalkan beberapa petua dan kiat panda untuk meningkatkan kecekapan analisis data, termasuk menggunakan operasi vektorisasi, menggunakan syarat untuk memilih data dan menggunakan jadual pangsi untuk data pengelompokan dan pengagregatan Dan gunakan fungsi guna untuk operasi tersuai. Dengan menguasai kemahiran ini, anda boleh melakukan kerja analisis data dengan lebih cekap dan meningkatkan kecekapan kerja. Sudah tentu, ini hanya sebahagian daripada fungsi panda, dan terdapat banyak ciri hebat lain yang menunggu untuk kita terokai. Saya harap artikel ini telah memberi inspirasi kepada pembaca dan boleh memainkan peranan yang lebih besar dalam kerja analisis data harian.

Atas ialah kandungan terperinci Petua dan kaedah untuk mengoptimumkan analisis data panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan