Penggambaran data ialah bahagian penting Analisis Data Penerokaan (EDA). EDA melibatkan pemeriksaan set data untuk mendedahkan corak, mengesan anomali dan memahami hubungan antara pembolehubah. Alat visualisasi membantu mempersembahkan cerapan data dengan cara yang jelas dan boleh ditafsir, membolehkan penganalisis membuat keputusan dipacu data dengan cekap. Python, dengan ekosistem perpustakaannya yang luas, telah menjadi bahasa pengaturcaraan untuk EDA.
Dalam artikel ini, kami akan membimbing anda melalui cara untuk menggambarkan data menggunakan Python untuk EDA. Sama ada anda seorang pemula atau seseorang yang ingin memperhalusi kemahiran anda, panduan ini akan merangkumi alatan, perpustakaan dan teknik penting.
EDA membantu penganalisis memahami set data dengan mengenal pasti corak, arah aliran dan anomali.
Memvisualisasikan data menawarkan beberapa faedah:
Tafsiran Pantas: Graf dan plot menjadikannya lebih mudah untuk memahami set data yang kompleks.
Pengenalpastian Corak: Membantu mendedahkan korelasi, arah aliran dan outlier.
Semakan Kualiti Data: Alat visualisasi mengesan nilai yang hilang atau salah.
Komunikasi Lebih Baik: Visual ialah cara yang berkesan untuk membentangkan penemuan kepada pihak berkepentingan.
Python menawarkan beberapa perpustakaan berkuasa untuk menggambarkan data. Berikut ialah perkara utama yang akan anda gunakan semasa EDA:
2.1 Matplotlib
Matplotlib ialah perpustakaan perancangan paling asas dalam Python, menyediakan alatan untuk mencipta visualisasi statik, animasi dan interaktif.
Kes Penggunaan Terbaik: Carta garisan, plot bar dan carta pai.
import matplotlib.pyplot sebagai plt
x = [1, 2, 3, 4]
y = [10, 20, 25, 30]
plt.plot(x, y)
plt.title("Plot Garis Asas")
plt.show()
2.2 Seaborn
Seaborn dibina di atas Matplotlib dan menawarkan gaya lalai yang cantik, terutamanya untuk visualisasi statistik.
Kes Penggunaan Terbaik: Peta haba, plot berpasangan dan plot pengedaran.
import seaborn sebagai sns
data = sns.load_dataset('iris')
sns.pairplot(data, hue='spesies')
plt.show()
2.3 Visualisasi Panda
Pandas membenarkan plot pantas terus daripada bingkai data menggunakan df.plot(). Ia sesuai untuk pemula yang ingin bermula dengan visualisasi mudah.
import panda sebagai pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [3, 2, 1]})
df.plot(kind='bar')
plt.show()
2.4 Plot
Plotly ialah perpustakaan plot interaktif, sesuai untuk mencipta papan pemuka dan visualisasi terperinci.
Kes Penggunaan Terbaik: Graf interaktif yang membenarkan zum dan penapisan.
import plotly.express sebagai px
fig = px.scatter(x=[1, 2, 3], y=[3, 1, 6], title="Plot Sebaran Interaktif")
rajah.tunjukkan()
Jenis visualisasi yang berbeza mempunyai tujuan yang berbeza dalam EDA. Di bawah ialah jenis plot yang paling biasa dan masa untuk menggunakannya:
Plot Baris 3.1
Kes Penggunaan: Menggambarkan arah aliran dari semasa ke semasa atau pembolehubah berterusan.
Contoh Perpustakaan: Matplotlib.
import numpy sebagai np
x = np.linspace(0, 10, 100)
y = np.sin(x)
plt.plot(x, y)
plt.title("Plot Gelombang Sinus")
plt.show()
Plot 3.2 Bar
Kes Penggunaan: Membandingkan data kategori atau taburan kekerapan.
Contoh Perpustakaan: Seaborn.
ular sawa
Salin kod
sns.countplot(x='spesies', data=data)
plt.show()
3.3 Histogram
Kes Penggunaan: Memahami taburan pembolehubah.
Contoh Perpustakaan: Matplotlib, Seaborn.
sns.histplot(data['sepal_length'], bins=20, kde=True)
plt.show()
Plot Taburan 3.4
Kes Penggunaan: Mengenal pasti hubungan antara dua pembolehubah.
Contoh Perpustakaan: Plotly, Seaborn.
sns.scatterplot(x='sepal_length', y='sepal_width', hue='spesies', data=data)
plt.show()
Peta Haba 3.5
Kes Penggunaan: Menggambarkan korelasi antara pembolehubah.
Contoh Perpustakaan: Seaborn.
corr = data.corr()
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.show()
Mari gunakan teknik visualisasi kami pada set data sebenar. Untuk contoh ini, kami akan menggunakan set data Iris untuk meneroka hubungan antara ciri.
Langkah 1: Muatkan Set Data
import seaborn sebagai sns
import panda sebagai pd
data = sns.load_dataset('iris')
print(data.head())
Langkah 2: Buat Plot Berpasangan untuk Meneroka Perhubungan
sns.pairplot(data, hue='spesies')
plt.show()
Plot pasangan ini membantu kami memvisualisasikan cara ciri seperti panjang sepal dan lebar kelopak diedarkan merentas spesies yang berbeza.
Langkah 3: Semak Nilai Hilang dengan Peta Haba
sns.heatmap(data.isnull(), cbar=False, cmap='viridis')
plt.title("Peta Haba Nilai Hilang")
plt.show()
Mengesan outlier adalah penting semasa EDA untuk memastikan ketepatan model. Begini cara untuk mengesan outlier secara visual:
Plot Kotak 5.1 untuk Pengesanan Outlier
sns.boxplot(x='spesies', y='sepal_length', data=data)
plt.show()
Dalam plot kotak ini, outlier ditunjukkan sebagai titik individu di sebalik misai.
Pilih Jenis Carta yang Tepat: Pilih visualisasi yang sejajar dengan jenis data anda (cth., plot garisan untuk arah aliran, plot bar untuk data kategori).
Gunakan Warna dengan Bijak: Warna harus menambah makna; elakkan penggunaan warna yang berlebihan yang boleh mengelirukan pembaca.
Labelkan Kapak Anda: Sentiasa tambahkan tajuk, label paksi dan legenda untuk menjadikan plot boleh ditafsirkan.
Percubaan dengan Interaktiviti: Gunakan Plotly untuk mencipta papan pemuka interaktif untuk mendapatkan pandangan yang lebih mendalam.
Pastikan Mudah: Elakkan visual yang berselerak—fokus pada cerapan utama.
Python menawarkan ekosistem perpustakaan yang kaya untuk visualisasi data, menjadikannya alat penting untuk analisis data penerokaan (EDA). Daripada Matplotlib dan Seaborn untuk plot statik kepada Plotly untuk papan pemuka interaktif, Python memenuhi setiap keperluan semasa EDA.
Memvisualisasikan data bukan hanya tentang mencipta plot yang menarik—ia mengenai mengekstrak cerapan yang bermakna dan menyampaikannya dengan berkesan. Sama ada anda seorang pemula atau penganalisis berpengalaman, menguasai teknik visualisasi ini akan meningkatkan kemahiran analisis data anda.
Untuk bacaan lanjut tentang teknik analisis data penerokaan, terokai panduan komprehensif ini di sini.
Teruskan bereksperimen dengan Python, dan anda akan menemui cerapan berharga dalam masa yang singkat!
Atas ialah kandungan terperinci Panduan Pemula untuk Mengvisualisasikan Data dengan Python untuk EDA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!