Jadual Kandungan
1. Membaca set data
2. Statistik ringkasan
3. Pemilihan dan penapisan data
4. Pengagregatan
5 Sertai
6 Fungsi terbina dalam
7 >
Rumah pembangunan bahagian belakang Tutorial Python Sepuluh petua Python merangkumi 90% keperluan analisis data!

Sepuluh petua Python merangkumi 90% keperluan analisis data!

Apr 12, 2023 am 08:04 AM
python analisis data Set data

Kerja harian penganalisis data melibatkan pelbagai tugas, seperti prapemprosesan data, analisis data, penciptaan model pembelajaran mesin dan penggunaan model.

Dalam artikel ini, saya akan berkongsi 10 operasi Python yang boleh merangkumi 90% masalah analisis data. Dapatkan beberapa suka, kegemaran dan perhatian.

1. Membaca set data

Membaca data ialah bahagian penting dalam analisis data Memahami cara membaca data daripada format fail yang berbeza adalah langkah pertama untuk penganalisis data. Berikut ialah contoh cara menggunakan panda untuk membaca fail csv yang mengandungi data Covid-19.

import pandas as pd 
# reading the countries_data file along with the location within read_csv function.
countries_df = pd.read_csv('C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_data.csv') 
# showing the first 5 rows of the dataframe 
countries_df.head()

Salin selepas log masuk

Berikut ialah keluaran country_df.head(), kita boleh menggunakannya untuk melihat 5 baris pertama bingkai data:

Sepuluh petua Python merangkumi 90% keperluan analisis data!

2. Statistik ringkasan

Langkah seterusnya ialah memahami data dengan melihat ringkasan data, seperti kiraan lajur angka seperti NewConfirmed dan TotalConfirmed, min, sisihan piawai, kuantiti dan kekerapan dan nilai kejadian tertinggi bagi lajur kategori seperti kod negara

<span  style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">countries_df</span>.<span  style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">describe</span>()
Salin selepas log masuk

Menggunakan fungsi huraikan, kita boleh mendapatkan ringkasan pembolehubah berterusan set data seperti berikut:

Sepuluh petua Python merangkumi 90% keperluan analisis data!

Dalam fungsi describe(), kita boleh menetapkan parameter "include = 'all'" untuk mendapatkan ringkasan pembolehubah berterusan dan pembolehubah kategori

countries_df.describe(include = 'all')
Salin selepas log masuk

Sepuluh petua Python merangkumi 90% keperluan analisis data!

3. Pemilihan dan penapisan data

Analisis sebenarnya tidak diperlukan Semua baris dan lajur set data, cuma pilih lajur yang diminati dan tapis beberapa baris berdasarkan soalan.

Sebagai contoh, kita boleh memilih lajur Negara dan NewConfirmed menggunakan kod berikut:

countries_df[['Country','NewConfirmed']]
Salin selepas log masuk

Kami juga boleh menapis data pada Negara, menggunakan loc, kami boleh menapis lajur berdasarkan beberapa nilai seperti yang ditunjukkan di bawah :

countries_df.loc[countries_df['Country'] == 'United States of America']
Salin selepas log masuk

Sepuluh petua Python merangkumi 90% keperluan analisis data!

4. Pengagregatan

Penggabungan data seperti kiraan, jumlah, min, dll. adalah salah satu daripada tugas yang paling biasa dilakukan dalam analisis data.

Kami boleh menggunakan pengagregatan untuk mencari jumlah bilangan kes NewConfimed mengikut negara. Gunakan fungsi groupby dan agg untuk melaksanakan pengagregatan.

countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})
Salin selepas log masuk

5 Sertai

Gunakan operasi Sertai untuk menggabungkan 2 set data ke dalam satu set data.

Contohnya: Satu set data mungkin mengandungi bilangan kes Covid-19 di negara yang berbeza dan set data lain mungkin mengandungi maklumat latitud dan longitud untuk negara yang berbeza.

Sekarang kita perlu menggabungkan kedua-dua maklumat ini, kemudian kita boleh melakukan operasi sambungan seperti yang ditunjukkan di bawah

countries_lat_lon = pd.read_excel('C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_lat_lon.xlsx')

# joining the 2 dataframe : countries_df and countries_lat_lon
# syntax : pd.merge(left_df, right_df, on = 'on_column', how = 'type_of_join')
joined_df = pd.merge(countries_df, countries_lat_lon, on = 'CountryCode', how = 'inner')
joined_df
Salin selepas log masuk

6 Fungsi terbina dalam

Fahami matematik yang dibina -in functions , seperti min(), max(), mean(), sum(), dsb., sangat membantu untuk melaksanakan analisis yang berbeza.

Kita boleh menggunakan fungsi ini secara langsung pada bingkai data dengan memanggilnya, fungsi ini boleh digunakan secara bebas pada lajur atau dalam fungsi agregat seperti berikut:

# finding sum of NewConfirmed cases of all the countries 
countries_df['NewConfirmed'].sum()
# Output : 6,631,899

# finding the sum of NewConfirmed cases across different countries 
countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})

# Output 
#NewConfirmed
#Country 
#Afghanistan75
#Albania 168
#Algeria 247
#Andorra0
#Angola53
Salin selepas log masuk

7 >

Fungsi yang kami tulis sendiri adalah fungsi yang ditentukan pengguna. Kita boleh melaksanakan kod dalam fungsi ini apabila diperlukan dengan memanggil fungsi tersebut. Sebagai contoh, kita boleh mencipta fungsi untuk menambah 2 nombor seperti berikut:

# User defined function is created using 'def' keyword, followed by function definition - 'addition()'
# and 2 arguments num1 and num2
def addition(num1, num2):
return num1+num2

# calling the function using function name and providing the arguments 
print(addition(1,2))
#output : 3
Salin selepas log masuk
8 Pivot

Pivot ialah untuk menukar nilai unik dalam baris lajur kepada berbilang lajur baharu. , Ini adalah teknologi pemprosesan data yang hebat.

Menggunakan fungsi pivot_table() pada set data Covid-19, kami boleh menukar nama negara kepada lajur baharu yang berasingan:

# using pivot_table to convert values within the Country column into individual columns and 
# filling the values corresponding to these columns with numeric variable - NewConfimed 
pivot_df = pd.pivot_table(countries_df,columns = 'Country', values = 'NewConfirmed')
pivot_df
Salin selepas log masuk
9 Lelaran pada bingkai data

Banyak kali kita perlu melintasi indeks dan baris bingkai data, kita boleh menggunakan fungsi iterrows untuk melintasi bingkai data:

# iterating over the index and row of a dataframe using iterrows() function 
for index, row in countries_df.iterrows():
print('Index is ' + str(index))
print('Country is '+ str(row['Country']))

# Output : 
# Index is 0
# Country is Afghanistan
# Index is 1
# Country is Albania
# .......
Salin selepas log masuk
10 Operasi rentetan

Berkali-kali kami memproses rentetan dalam lajur set data, dalam hal ini adalah penting untuk memahami beberapa operasi rentetan asas.

Contohnya cara menukar rentetan kepada huruf besar, huruf kecil dan cara mencari panjang rentetan.

Atas ialah kandungan terperinci Sepuluh petua Python merangkumi 90% keperluan analisis data!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apa yang perlu saya lakukan jika modul '__builtin__' tidak dijumpai apabila memuatkan fail acar di Python 3.6? Apa yang perlu saya lakukan jika modul '__builtin__' tidak dijumpai apabila memuatkan fail acar di Python 3.6? Apr 02, 2025 am 07:12 AM

Memuatkan Fail Pickle di Python 3.6 Kesalahan Laporan Alam Sekitar: ModulenotFoundError: Nomodulenamed ...

Adakah debian rentetan serasi dengan pelbagai pelayar Adakah debian rentetan serasi dengan pelbagai pelayar Apr 02, 2025 am 08:30 AM

"Debianstrings" bukan istilah standard, dan makna khususnya masih belum jelas. Artikel ini tidak dapat mengulas secara langsung mengenai keserasian penyemak imbasnya. Walau bagaimanapun, jika "debianstrings" merujuk kepada aplikasi web yang dijalankan pada sistem Debian, keserasian penyemak imbasnya bergantung kepada seni bina teknikal aplikasi itu sendiri. Sebilangan besar aplikasi web moden komited untuk keserasian penyemak imbas. Ini bergantung kepada standard web berikut dan menggunakan teknologi front-end yang serasi (seperti HTML, CSS, JavaScript) dan teknologi back-end (seperti PHP, Python, Node.js, dll.). Untuk memastikan bahawa aplikasi itu serasi dengan pelbagai pelayar, pemaju sering perlu menjalankan ujian silang dan menggunakan responsif

Adakah pengubahsuaian XML memerlukan pengaturcaraan? Adakah pengubahsuaian XML memerlukan pengaturcaraan? Apr 02, 2025 pm 06:51 PM

Mengubah kandungan XML memerlukan pengaturcaraan, kerana ia memerlukan penemuan tepat nod sasaran untuk menambah, memadam, mengubah suai dan menyemak. Bahasa pengaturcaraan mempunyai perpustakaan yang sepadan untuk memproses XML dan menyediakan API untuk melaksanakan operasi yang selamat, cekap dan terkawal seperti pangkalan data operasi.

Adakah kelajuan penukaran cepat apabila menukar XML ke PDF pada telefon bimbit? Adakah kelajuan penukaran cepat apabila menukar XML ke PDF pada telefon bimbit? Apr 02, 2025 pm 10:09 PM

Kelajuan XML mudah alih ke PDF bergantung kepada faktor -faktor berikut: kerumitan struktur XML. Kaedah Penukaran Konfigurasi Perkakasan Mudah Alih (Perpustakaan, Algoritma) Kaedah Pengoptimuman Kualiti Kod (Pilih perpustakaan yang cekap, mengoptimumkan algoritma, data cache, dan menggunakan pelbagai threading). Secara keseluruhannya, tidak ada jawapan mutlak dan ia perlu dioptimumkan mengikut keadaan tertentu.

Cara mengubahsuai kandungan komen dalam XML Cara mengubahsuai kandungan komen dalam XML Apr 02, 2025 pm 06:15 PM

Untuk fail XML kecil, anda boleh menggantikan kandungan anotasi secara langsung dengan editor teks; Untuk fail besar, adalah disyorkan untuk menggunakan parser XML untuk mengubahnya untuk memastikan kecekapan dan ketepatan. Berhati -hati apabila memadam komen XML, menyimpan komen biasanya membantu pemahaman dan penyelenggaraan kod. Petua Lanjutan menyediakan kod sampel Python untuk mengubahsuai komen menggunakan parser XML, tetapi pelaksanaan khusus perlu diselaraskan mengikut perpustakaan XML yang digunakan. Beri perhatian kepada isu pengekodan semasa mengubah suai fail XML. Adalah disyorkan untuk menggunakan pengekodan UTF-8 dan menentukan format pengekodan.

Adakah terdapat aplikasi mudah alih yang boleh menukar XML ke PDF? Adakah terdapat aplikasi mudah alih yang boleh menukar XML ke PDF? Apr 02, 2025 pm 08:54 PM

Permohonan yang menukarkan XML terus ke PDF tidak dapat dijumpai kerana mereka adalah dua format yang berbeza. XML digunakan untuk menyimpan data, manakala PDF digunakan untuk memaparkan dokumen. Untuk melengkapkan transformasi, anda boleh menggunakan bahasa pengaturcaraan dan perpustakaan seperti Python dan ReportLab untuk menghuraikan data XML dan menghasilkan dokumen PDF.

Bagaimana untuk menentukan jenis enum dalam pemalar rentetan protobuf dan bersekutu? Bagaimana untuk menentukan jenis enum dalam pemalar rentetan protobuf dan bersekutu? Apr 02, 2025 pm 03:36 PM

Isu Menentukan Penghitungan Tetap String Dalam Protobuf Apabila menggunakan Protobuf, anda sering menghadapi situasi di mana anda perlu mengaitkan jenis enum dengan pemalar rentetan ...

Bagaimana cara mengawal saiz XML ditukar kepada imej? Bagaimana cara mengawal saiz XML ditukar kepada imej? Apr 02, 2025 pm 07:24 PM

Untuk menjana imej melalui XML, anda perlu menggunakan perpustakaan graf (seperti bantal dan JFreechart) sebagai jambatan untuk menjana imej berdasarkan metadata (saiz, warna) dalam XML. Kunci untuk mengawal saiz imej adalah untuk menyesuaikan nilai & lt; lebar & gt; dan & lt; ketinggian & gt; Tag dalam XML. Walau bagaimanapun, dalam aplikasi praktikal, kerumitan struktur XML, kehalusan lukisan graf, kelajuan penjanaan imej dan penggunaan memori, dan pemilihan format imej semuanya mempunyai kesan ke atas saiz imej yang dihasilkan. Oleh itu, perlu mempunyai pemahaman yang mendalam tentang struktur XML, mahir dalam perpustakaan grafik, dan mempertimbangkan faktor -faktor seperti algoritma pengoptimuman dan pemilihan format imej.

See all articles