Pengenalan
Berdasarkan matlamat akhir yang anda ada tentang data anda hasil daripada model pembelajaran mesin, pembangunan visualisasi dan penggabungan aplikasi mesra pengguna, membangunkan kefasihan dalam data pada permulaan projek akan meningkatkan kejayaan akhir.
Kepentingan EDA
Di sinilah kita dapat mempelajari bagaimana keperluan prapemprosesan data bermanfaat kepada penganalisis data.
Oleh kerana keluasan dan pelbagai sumber, data hari ini lebih berkemungkinan tidak normal. Prapemprosesan data telah menjadi peringkat asas dalam bidang sains data memandangkan data berkualiti tinggi menghasilkan model dan ramalan yang lebih mantap.
Analisis data penerokaan ialah alat saintis data untuk melihat data yang boleh didedahkan di luar pemodelan formal atau tugas ujian andaian.
Saintis data mesti sentiasa melaksanakan EDA untuk memastikan keputusan yang boleh dipercayai dan terpakai kepada sebarang hasil dan objektif yang berkesan. Ia juga membantu saintis dan penganalisis dalam mengesahkan bahawa mereka berada di landasan yang betul untuk mencapai hasil yang diinginkan.
Antara contoh soalan kajian yang menjadi panduan kajian ialah:
1.Adakah terdapat kesan ketara prapemprosesan data
pendekatan analisis-- nilai hilang, agregat nilai, penapisan data, outlier, transformasi pembolehubah dan pengurangan pembolehubah - pada keputusan analisis data yang tepat?
2. Pada tahap penting apakah analisis data prapemprosesan diperlukan dalam kajian penyelidikan?
Metrik Analisis Data Penerokaan dan Kepentingannya
1.Penapisan Data
Ini ialah amalan memilih bahagian yang lebih kecil daripada set data dan menggunakan subset itu untuk melihat atau analisis. Set data penuh disimpan, tetapi hanya subset daripadanya digunakan untuk pengiraan; penapisan biasanya merupakan prosedur sementara. Menemui pemerhatian yang tidak tepat, tidak betul atau di bawah taraf daripada kajian, mengekstrak data untuk kumpulan minat tertentu atau memburu maklumat untuk tempoh tertentu semuanya boleh dirumuskan menggunakan penapis. Saintis data mesti menentukan peraturan atau logik semasa penapisan untuk mengekstrak kes untuk kajian.
2.Penggabungan Data
Pengagregatan data memerlukan pengumpulan data yang tidak diproses ke dalam satu lokasi dan merumuskannya untuk analisis. Pengagregatan data meningkatkan nilai maklumat, praktikal dan boleh guna data. Perspektif pengguna teknikal sering digunakan untuk menentukan frasa. Pengagregatan data ialah proses menyepadukan data yang tidak diproses daripada banyak pangkalan data atau sumber data ke dalam pangkalan data terpusat dalam contoh seorang penganalisis atau jurutera. Nombor agregat kemudian dibuat dengan menggabungkan data mentah. Jumlah atau purata ialah ilustrasi lurus ke hadapan bagi nilai agregat. Data agregat digunakan dalam analisis, pelaporan, papan pemuka dan produk data lain. Pengagregatan data boleh meningkatkan produktiviti, membuat keputusan dan masa untuk mendapatkan cerapan.
3.Tiada Data
Dalam analitis data, nilai yang hilang ialah nama lain untuk hilang
data. Ia berlaku apabila pembolehubah atau responden tertentu ditinggalkan atau dilangkau. Peninggalan boleh berlaku disebabkan kemasukan data yang salah, fail hilang atau teknologi rosak. Kehilangan data boleh mengakibatkan kecenderungan model secara berselang-seli, bergantung pada jenisnya, yang menjadikannya bermasalah. Data yang hilang membayangkan bahawa memandangkan data mungkin datang daripada sampel yang mengelirukan pada masa-masa tertentu, hasil mungkin hanya boleh digeneralisasikan dalam parameter kajian. Untuk memastikan ketekalan merentas keseluruhan set data, adalah perlu untuk mengekod semula semua nilai yang tiada dengan label "N/A"(singkatan daripada "tidak berkenaan").
4.Transformasi Data
Data diskala semula menggunakan fungsi atau matematik lain
operasi pada setiap pemerhatian semasa transformasi. Kami
sekali-sekala mengubah data untuk menjadikannya lebih mudah untuk dimodelkan apabila ia
adalah sangat ketara condong (sama ada secara positif atau negatif).
Dalam erti kata lain, seseorang harus mencuba transformasi data agar sesuai dengan andaian menggunakan ujian statistik parametrik jika
pembolehubah tidak sesuai dengan taburan normal. Transformasi data yang paling popular ialah log (atau log semula jadi), yang kerap digunakan apabila semua pemerhatian adalah positif, dan kebanyakan nilai data berkelompok sekitar sifar berkaitan nilai yang lebih ketara dalam set data.
Ilustrasi rajah
Teknik visualisasi dalam EDA
Teknik visualisasi memainkan peranan penting dalam EDA, membolehkan kami meneroka dan memahami struktur dan perhubungan data yang kompleks secara visual. Beberapa teknik visualisasi yang biasa digunakan dalam EDA ialah:
1.Histogram:
Histogram ialah perwakilan grafik yang menunjukkan taburan pembolehubah berangka. Mereka membantu memahami kecenderungan pusat dan penyebaran data dengan menggambarkan taburan kekerapan.
2.Boxplots: Boxplot ialah graf yang menunjukkan taburan pembolehubah berangka. Teknik visualisasi ini membantu mengenal pasti sebarang outlier dan memahami penyebaran data dengan menggambarkan kuartilnya.
3.Peta haba: Ia adalah perwakilan grafik data yang mana warna mewakili nilai. Ia sering digunakan untuk memaparkan set data yang kompleks, menyediakan cara yang cepat dan mudah untuk menggambarkan corak dan arah aliran dalam jumlah data yang besar.
4.Carta palang: Carta palang ialah graf yang menunjukkan taburan pembolehubah kategori. Ia digunakan untuk menggambarkan taburan kekerapan data, yang membantu memahami kekerapan relatif bagi setiap kategori.
5.Carta garisan: Carta garis ialah graf yang menunjukkan arah aliran pembolehubah berangka dari semasa ke semasa. Ia digunakan untuk menggambarkan perubahan dalam data dari semasa ke semasa dan untuk mengenal pasti sebarang corak atau aliran.
5.Carta pai: Carta pai ialah graf yang mempamerkan perkadaran pembolehubah kategori. Ia digunakan untuk menggambarkan perkadaran relatif setiap kategori dan memahami pengedaran data.
Atas ialah kandungan terperinci MEMAHAMI DATA ANDA: KEPENTINGAN ANALISIS DATA PENEROKAAN.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!