Analisis data penerokaan ialah pendekatan popular untuk menganalisis set data dan mempersembahkan penemuan anda secara visual. Ia membantu memberikan cerapan maksimum tentang set data dan struktur. Ini mengenal pasti analisis data penerokaan sebagai teknik untuk memahami pelbagai aspek data.
Untuk memahami data dengan lebih baik, seseorang mesti memastikan bahawa data itu bersih, tidak mempunyai lebihan, tiada nilai atau bahkan nilai NULL.
Terdapat tiga jenis utama:
Univariate: Di sinilah anda melihat satu pembolehubah (lajur) pada bila-bila masa. Ia membantu seseorang memahami lebih lanjut tentang sifat pembolehubah dan diistilahkan sebagai jenis EDA yang paling mudah.
Bivariate: Di sinilah seseorang melihat dua pembolehubah bersama-sama. Ia membantu seseorang memahami hubungan antara pembolehubah A dan B sama ada ia bebas atau berkorelasi.
Multivariate: Ini melibatkan melihat tiga atau lebih pembolehubah pada satu masa. Ia dikenal pasti sebagai bivariat "maju".
Grafi: Ini melibatkan penerokaan data melalui perwakilan visual seperti graf dan carta. Visualisasi biasa termasuk plot kotak, graf bar, plot serakan dan peta haba.
Bukan grafik: Ini dilakukan melalui teknik statistik. Metrik yang digunakan termasuk min, median, mod, sisihan piawai dan persentil.
Beberapa alatan yang paling biasa digunakan untuk EDA termasuk
Python: Bahasa pengaturcaraan berorientasikan objek yang digunakan untuk menyambungkan komponen sedia ada dan mengenal pasti nilai yang hilang
R: Bahasa pengaturcaraan sumber terbuka yang digunakan dalam pengkomputeran statistik
Dataset yang digunakan untuk contoh ini ialah set data Iris - tersedia di sini
df = pd.read_csv(io.BytesIO(uploaded['Iris.csv'])) df.head()
df.plot(kind='scatter', x='SepalLengthCm', y='SepalWidthCm') ; plt.show()
Atas ialah kandungan terperinci Memahami Data Anda: Kepentingan Analisis Data Penerokaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!