Pandas adalah sumber terbuka, perpustakaan berlesen BSD yang menyediakan struktur data berprestasi tinggi, mudah digunakan dan alat analisis data untuk bahasa pengaturcaraan Python. Ia digunakan secara meluas dalam manipulasi data, analisis, dan pembersihan, menjadikannya alat penting untuk saintis data dan penganalisis.
Dua struktur data utama dalam panda adalah Series
dan DataFrame
:
index
. Ia boleh dianggap sebagai satu lajur dalam spreadsheet.Pandas menawarkan alat manipulasi dan analisis data yang kuat, fleksibel, dan cekap. Inilah cara anda boleh menggunakannya dengan berkesan:
read_csv()
, read_excel()
, dan to_csv()
untuk memuatkan dan menyimpan data dari pelbagai format seperti CSV, Excel, pangkalan data SQL, dll.head()
, tail()
, info()
, describe()
, dan isnull()
untuk memeriksa data anda. Kaedah seperti dropna()
, fillna()
, dan replace()
membantu dalam membersihkan dan memproses data anda.loc[]
, iloc[]
, dan pengindeksan boolean untuk memilih dan menapis data. Sebagai contoh, df[df['column'] > value]
penapis baris di mana keadaan dipenuhi.apply()
, map()
, groupby()
, dan agg()
untuk mengubah data anda. Anda boleh menggunakan fungsi tersuai atau data agregat berdasarkan kriteria tertentu.plot()
atau hist()
.merge()
, join()
, dan concat()
untuk menggabungkan dataset dari sumber yang berbeza.resample()
, shift()
, dan rolling()
.Dengan menguasai operasi ini, anda dapat memanipulasi dan menganalisis data anda dengan cekap untuk mendedahkan pandangan dan membuat keputusan yang didorong oleh data.
Perbezaan utama antara siri dan data data dalam panda adalah seperti berikut:
index
. DataFrame mempunyai dua paksi yang dilabelkan index
(baris) dan columns
.Ya, terdapat beberapa fungsi dan kaedah biasa dalam panda yang penting untuk pemprosesan data:
head()
dan tail()
: Paparkan beberapa baris pertama atau terakhir dari satu data data, berguna untuk pemeriksaan data cepat.info()
: Menyediakan ringkasan ringkas data data, termasuk indeks DTYPE dan lajur DTYPES, nilai bukan nol, dan penggunaan memori.describe()
: Menjana statistik deskriptif lajur berangka data, seperti kiraan, min, std, min, dan max.dropna()
: Mengeluarkan baris atau lajur dengan nilai yang hilang.fillna()
: Mengisi nilai yang hilang dengan kaedah atau nilai yang ditentukan.groupby()
: Kumpulan data berdasarkan beberapa kriteria dan menggunakan fungsi untuk setiap kumpulan.merge()
: Menggabungkan dua data data berdasarkan lajur atau indeks yang sama.concat()
: Concatenates objek pandas di sepanjang paksi tertentu.apply()
: Memohon fungsi di sepanjang paksi DataFrame.loc[]
dan iloc[]
: untuk pengindeksan berasaskan label dan berasaskan integer masing-masing, berguna untuk memilih baris dan lajur tertentu.sort_values()
: menyusun data data dengan nilai -nilai di sepanjang paksi.value_counts()
: Mengembalikan satu siri yang mengandungi jumlah nilai unik.Menguasai fungsi dan kaedah ini akan meningkatkan keupayaan anda untuk memproses dan menganalisis data dengan berkesan menggunakan panda.
Atas ialah kandungan terperinci Apa itu panda? Jelaskan struktur data utamanya (siri dan dataframe).. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!