


Sepuluh petua Python merangkumi 90% keperluan analisis data!
Kerja harian penganalisis data melibatkan pelbagai tugas, seperti prapemprosesan data, analisis data, penciptaan model pembelajaran mesin dan penggunaan model.
Dalam artikel ini, saya akan berkongsi 10 operasi Python yang boleh merangkumi 90% masalah analisis data. Dapatkan beberapa suka, kegemaran dan perhatian.
1. Membaca set data
Membaca data ialah bahagian penting dalam analisis data Memahami cara membaca data daripada format fail yang berbeza adalah langkah pertama untuk penganalisis data. Berikut ialah contoh cara menggunakan panda untuk membaca fail csv yang mengandungi data Covid-19.
import pandas as pd # reading the countries_data file along with the location within read_csv function. countries_df = pd.read_csv('C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_data.csv') # showing the first 5 rows of the dataframe countries_df.head()
Berikut ialah keluaran country_df.head(), kita boleh menggunakannya untuk melihat 5 baris pertama bingkai data:
2. Statistik ringkasan
Langkah seterusnya ialah memahami data dengan melihat ringkasan data, seperti kiraan lajur angka seperti NewConfirmed dan TotalConfirmed, min, sisihan piawai, kuantiti dan kekerapan dan nilai kejadian tertinggi bagi lajur kategori seperti kod negara
<span style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">countries_df</span>.<span style="color: rgb(0, 92, 197); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">describe</span>()
Menggunakan fungsi huraikan, kita boleh mendapatkan ringkasan pembolehubah berterusan set data seperti berikut:
Dalam fungsi describe(), kita boleh menetapkan parameter "include = 'all'" untuk mendapatkan ringkasan pembolehubah berterusan dan pembolehubah kategori
countries_df.describe(include = 'all')
3. Pemilihan dan penapisan data
Analisis sebenarnya tidak diperlukan Semua baris dan lajur set data, cuma pilih lajur yang diminati dan tapis beberapa baris berdasarkan soalan.
Sebagai contoh, kita boleh memilih lajur Negara dan NewConfirmed menggunakan kod berikut:
countries_df[['Country','NewConfirmed']]
Kami juga boleh menapis data pada Negara, menggunakan loc, kami boleh menapis lajur berdasarkan beberapa nilai seperti yang ditunjukkan di bawah :
countries_df.loc[countries_df['Country'] == 'United States of America']
4. Pengagregatan
Penggabungan data seperti kiraan, jumlah, min, dll. adalah salah satu daripada tugas yang paling biasa dilakukan dalam analisis data.
Kami boleh menggunakan pengagregatan untuk mencari jumlah bilangan kes NewConfimed mengikut negara. Gunakan fungsi groupby dan agg untuk melaksanakan pengagregatan.
countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'})
5 Sertai
Gunakan operasi Sertai untuk menggabungkan 2 set data ke dalam satu set data.
Contohnya: Satu set data mungkin mengandungi bilangan kes Covid-19 di negara yang berbeza dan set data lain mungkin mengandungi maklumat latitud dan longitud untuk negara yang berbeza.
Sekarang kita perlu menggabungkan kedua-dua maklumat ini, kemudian kita boleh melakukan operasi sambungan seperti yang ditunjukkan di bawah
countries_lat_lon = pd.read_excel('C:/Users/anmol/Desktop/Courses/Python for Data Science/Code/countries_lat_lon.xlsx') # joining the 2 dataframe : countries_df and countries_lat_lon # syntax : pd.merge(left_df, right_df, on = 'on_column', how = 'type_of_join') joined_df = pd.merge(countries_df, countries_lat_lon, on = 'CountryCode', how = 'inner') joined_df
6 Fungsi terbina dalam
Fahami matematik yang dibina -in functions , seperti min(), max(), mean(), sum(), dsb., sangat membantu untuk melaksanakan analisis yang berbeza.
Kita boleh menggunakan fungsi ini secara langsung pada bingkai data dengan memanggilnya, fungsi ini boleh digunakan secara bebas pada lajur atau dalam fungsi agregat seperti berikut:
# finding sum of NewConfirmed cases of all the countries countries_df['NewConfirmed'].sum() # Output : 6,631,899 # finding the sum of NewConfirmed cases across different countries countries_df.groupby(['Country']).agg({'NewConfirmed':'sum'}) # Output #NewConfirmed #Country #Afghanistan75 #Albania 168 #Algeria 247 #Andorra0 #Angola53
7 >
Fungsi yang kami tulis sendiri adalah fungsi yang ditentukan pengguna. Kita boleh melaksanakan kod dalam fungsi ini apabila diperlukan dengan memanggil fungsi tersebut. Sebagai contoh, kita boleh mencipta fungsi untuk menambah 2 nombor seperti berikut:# User defined function is created using 'def' keyword, followed by function definition - 'addition()' # and 2 arguments num1 and num2 def addition(num1, num2): return num1+num2 # calling the function using function name and providing the arguments print(addition(1,2)) #output : 3
# using pivot_table to convert values within the Country column into individual columns and # filling the values corresponding to these columns with numeric variable - NewConfimed pivot_df = pd.pivot_table(countries_df,columns = 'Country', values = 'NewConfirmed') pivot_df
# iterating over the index and row of a dataframe using iterrows() function for index, row in countries_df.iterrows(): print('Index is ' + str(index)) print('Country is '+ str(row['Country'])) # Output : # Index is 0 # Country is Afghanistan # Index is 1 # Country is Albania # .......
Atas ialah kandungan terperinci Sepuluh petua Python merangkumi 90% keperluan analisis data!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Memuatkan Fail Pickle di Python 3.6 Kesalahan Laporan Alam Sekitar: ModulenotFoundError: Nomodulenamed ...

"Debianstrings" bukan istilah standard, dan makna khususnya masih belum jelas. Artikel ini tidak dapat mengulas secara langsung mengenai keserasian penyemak imbasnya. Walau bagaimanapun, jika "debianstrings" merujuk kepada aplikasi web yang dijalankan pada sistem Debian, keserasian penyemak imbasnya bergantung kepada seni bina teknikal aplikasi itu sendiri. Sebilangan besar aplikasi web moden komited untuk keserasian penyemak imbas. Ini bergantung kepada standard web berikut dan menggunakan teknologi front-end yang serasi (seperti HTML, CSS, JavaScript) dan teknologi back-end (seperti PHP, Python, Node.js, dll.). Untuk memastikan bahawa aplikasi itu serasi dengan pelbagai pelayar, pemaju sering perlu menjalankan ujian silang dan menggunakan responsif

Mengubah kandungan XML memerlukan pengaturcaraan, kerana ia memerlukan penemuan tepat nod sasaran untuk menambah, memadam, mengubah suai dan menyemak. Bahasa pengaturcaraan mempunyai perpustakaan yang sepadan untuk memproses XML dan menyediakan API untuk melaksanakan operasi yang selamat, cekap dan terkawal seperti pangkalan data operasi.

Kelajuan XML mudah alih ke PDF bergantung kepada faktor -faktor berikut: kerumitan struktur XML. Kaedah Penukaran Konfigurasi Perkakasan Mudah Alih (Perpustakaan, Algoritma) Kaedah Pengoptimuman Kualiti Kod (Pilih perpustakaan yang cekap, mengoptimumkan algoritma, data cache, dan menggunakan pelbagai threading). Secara keseluruhannya, tidak ada jawapan mutlak dan ia perlu dioptimumkan mengikut keadaan tertentu.

Untuk fail XML kecil, anda boleh menggantikan kandungan anotasi secara langsung dengan editor teks; Untuk fail besar, adalah disyorkan untuk menggunakan parser XML untuk mengubahnya untuk memastikan kecekapan dan ketepatan. Berhati -hati apabila memadam komen XML, menyimpan komen biasanya membantu pemahaman dan penyelenggaraan kod. Petua Lanjutan menyediakan kod sampel Python untuk mengubahsuai komen menggunakan parser XML, tetapi pelaksanaan khusus perlu diselaraskan mengikut perpustakaan XML yang digunakan. Beri perhatian kepada isu pengekodan semasa mengubah suai fail XML. Adalah disyorkan untuk menggunakan pengekodan UTF-8 dan menentukan format pengekodan.

Permohonan yang menukarkan XML terus ke PDF tidak dapat dijumpai kerana mereka adalah dua format yang berbeza. XML digunakan untuk menyimpan data, manakala PDF digunakan untuk memaparkan dokumen. Untuk melengkapkan transformasi, anda boleh menggunakan bahasa pengaturcaraan dan perpustakaan seperti Python dan ReportLab untuk menghuraikan data XML dan menghasilkan dokumen PDF.

Isu Menentukan Penghitungan Tetap String Dalam Protobuf Apabila menggunakan Protobuf, anda sering menghadapi situasi di mana anda perlu mengaitkan jenis enum dengan pemalar rentetan ...

Untuk menjana imej melalui XML, anda perlu menggunakan perpustakaan graf (seperti bantal dan JFreechart) sebagai jambatan untuk menjana imej berdasarkan metadata (saiz, warna) dalam XML. Kunci untuk mengawal saiz imej adalah untuk menyesuaikan nilai & lt; lebar & gt; dan & lt; ketinggian & gt; Tag dalam XML. Walau bagaimanapun, dalam aplikasi praktikal, kerumitan struktur XML, kehalusan lukisan graf, kelajuan penjanaan imej dan penggunaan memori, dan pemilihan format imej semuanya mempunyai kesan ke atas saiz imej yang dihasilkan. Oleh itu, perlu mempunyai pemahaman yang mendalam tentang struktur XML, mahir dalam perpustakaan grafik, dan mempertimbangkan faktor -faktor seperti algoritma pengoptimuman dan pemilihan format imej.
