Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana Mengira Nilai Unik dalam Kumpulan dengan Panda?

Bagaimana Mengira Nilai Unik dalam Kumpulan dengan Panda?

Patricia Arquette
Lepaskan: 2024-10-18 15:52:03
asal
289 orang telah melayarinya

How to Count Unique Values in Groups with Pandas?

Mengira Nilai Unik dalam Kumpulan dengan Panda

Apabila bekerja dengan set data yang mengandungi berbilang pembolehubah yang dikumpulkan ke dalam kategori, selalunya menjadi perlu untuk menentukan nombor nilai unik yang dikaitkan dengan setiap kumpulan. Pandas, pustaka Python yang digunakan secara meluas untuk manipulasi data, menawarkan beberapa kaedah untuk mengira nilai unik dalam kumpulan.

Satu keperluan biasa ialah mengira bilangan pengecam unik dalam setiap domain. Memandangkan bingkai data dengan lajur untuk ID dan domain, kami berusaha untuk mendapatkan hasil yang memaparkan kiraan ID unik untuk setiap domain.

Secara khusus, mengambil kira data:

      ID   domain
0    123   vk.com
1    123   vk.com
2    123  twitter.com
3    456   vk.com
4    456  facebook.com
5    456   vk.com
6    456   google.com
7    789  twitter.com
8    789   vk.com
Salin selepas log masuk

Kami bertujuan untuk mencapai output berikut:

domain  count
vk.com       3
twitter.com   2
facebook.com  1
google.com    1
Salin selepas log masuk

Untuk mencapai ini, kita boleh menggunakan fungsi nunique() dalam operasi kumpulan Pandas. Dengan mengumpulkan bingkai data mengikut lajur domain dan seterusnya menggunakan fungsi nunique() pada lajur ID, kami memperoleh kiraan nilai unik untuk setiap domain. Bingkai data yang terhasil akan mengandungi hasil yang diingini:

df = df.groupby(['domain', 'ID']).nunique()

print(df)
Salin selepas log masuk

Walau bagaimanapun, dalam senario tertentu, data mungkin mengandungi aksara seperti petikan tunggal dalam nama domain. Untuk mengendalikan kes sedemikian, kami boleh menggunakan fungsi str.strip("'") untuk mengalih keluar petikan tunggal sebelum mengumpulkan dan mengira. Ini boleh dilaksanakan sebagai:

df = df.ID.groupby([df.domain.str.strip("'")]).nunique()

print(df)
Salin selepas log masuk

Sebagai alternatif, kita boleh memudahkan kod dengan merantai fungsi str.strip("'") dalam operasi kumpulan mengikut:

df.groupby(df.domain.str.strip("'"))['ID'].nunique()
Salin selepas log masuk

Untuk mengekalkan lajur domain dalam bingkai data yang terhasil, kita boleh menggunakan fungsi agg() dengan parameter as_index=False:

df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})

print(df)
Salin selepas log masuk

Kaedah ini akan mengembalikan bingkai data dengan kedua-dua lajur domain dan kiraan, di mana kiraan mewakili bilangan ID unik yang dikaitkan dengan setiap domain.

Atas ialah kandungan terperinci Bagaimana Mengira Nilai Unik dalam Kumpulan dengan Panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan