statistik ialah alat berkuasa yang membolehkan kami menangani masalah yang rumit dan menjawab soalan yang timbul apabila memerhati data atau corak buat kali pertama. Contohnya boleh menganalisis personaliti pelanggan di pasar raya. Soalan seperti Adakah kumpulan ini benar-benar berbeza daripada yang lain? Setakat mana? Perlukah saya lebih fokus pada kumpulan ini untuk meningkatkan pengalaman mereka dan jualan saya? Mereka adalah kunci untuk membuat keputusan yang baik.
Walaupun visualisasi boleh membantu kami memahami data dengan cepat, ia tidak selalunya boleh dipercayai 100%. Kita boleh melihat perbezaan yang jelas antara kumpulan, tetapi perbezaan tersebut mungkin tidak signifikan secara statistik.
Di sinilah statistik berperanan: bukan sahaja ia membantu kami menganalisis data dengan lebih mendalam, tetapi ia memberi kami keyakinan untuk mengesahkan andaian kami. Sebagai saintis data atau profesional membuat keputusan, kita mesti sedar bahawa analisis yang salah boleh membawa kepada keputusan yang salah, mengakibatkan kehilangan masa dan wang. Oleh itu, adalah penting bahawa kesimpulan kami berasas, disokong oleh bukti statistik.
Kepuasan sebenar datang apabila kami melihat hasil analisis kami dicerminkan dalam perubahan berkesan dalam syarikat, peningkatan dalam pengalaman pelanggan dan, akhirnya, kesan positif terhadap jualan dan operasi. Sungguh satu perasaan yang luar biasa untuk menjadi sebahagian daripada proses itu!
Untuk membantu anda mengembangkan kemahiran ini, kami akan membangunkan dalam artikel ini dalam Analisis Personaliti pelanggan pasar raya, kami akan menggunakan Set Data Kaggle Analisis Personaliti Pelanggan: https://www.kaggle.com/datasets / imakash3011/analisis-personaliti-pelanggan
Dalam analisis ini, kami akan meneroka gelagat pelanggan pasar raya dengan tujuan mengekstrak maklumat berharga daripada data. Kami akan berusaha untuk menjawab soalan berikut:
Walaupun analisis ini boleh dipanjangkan lebih jauh, kami akan menumpukan pada menjawab tiga soalan ini, kerana ia menawarkan kuasa penjelasan yang hebat. Sepanjang artikel itu, kami akan menunjukkan kepada anda bagaimana kami boleh menangani soalan ini dan bagaimana, melalui pendekatan yang sama, kami boleh menjawab lebih banyak soalan.
Dalam artikel ini kita akan meneroka analisis statistik seperti ujian Kolmogorov-Smirnov, ujian Levene dan bagaimana untuk mengetahui masa untuk memohon ANOVA atau Kruskal -Wallis. Nama-nama ini mungkin terdengar asing bagi anda, tetapi jangan risau, saya akan menerangkannya dengan cara yang mudah supaya anda memahaminya tanpa komplikasi.
Kami mengimport perpustakaan Python yang diperlukan.
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
Kini kami boleh memilih dua cara untuk memuat naik fail .csv, kami terus mendapatkan fail tersebut atau kami boleh mendapatkan pautan kaggle, terus pada butang muat turun.
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
ID | Year_Birth | Education | Marital_Status | Income | Kidhome | Teenhome | Dt_Customer | Recency | MntWines | MntFruits | MntMeatProducts | MntFishProducts | MntSweetProducts | MntGoldProds | NumDealsPurchases | NumWebPurchases | NumCatalogPurchases | NumStorePurchases | NumWebVisitsMonth | AcceptedCmp3 | AcceptedCmp4 | AcceptedCmp5 | AcceptedCmp1 | AcceptedCmp2 | Complain | Z_CostContact | Z_Revenue | Response | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 5524 | 1957 | Graduation | Single | 58138.0 | 0 | 0 | 04-09-2012 | 58 | 635 | 88 | 546 | 172 | 88 | 88 | 3 | 8 | 10 | 4 | 7 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 1 |
1 | 2174 | 1954 | Graduation | Single | 46344.0 | 1 | 1 | 08-03-2014 | 38 | 11 | 1 | 6 | 2 | 1 | 6 | 2 | 1 | 1 | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
2 | 4141 | 1965 | Graduation | Together | 71613.0 | 0 | 0 | 21-08-2013 | 26 | 426 | 49 | 127 | 111 | 21 | 42 | 1 | 8 | 2 | 10 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 3 | 11 | 0 |
Untuk mendapatkan idea yang lebih baik tentang set data yang akan kami analisis, saya akan menunjukkan maksud setiap lajur.
Lajur:
Orang:
Produk:
Promosi:
Tempat:
Ya, terdapat banyak lajur, namun di sini kami hanya akan menggunakan beberapa, supaya tidak memanjangkan terlalu banyak, dalam apa jua keadaan anda boleh menggunakan langkah yang sama untuk lajur lain.
Sekarang, kami akan mengesahkan bahawa kami tidak mempunyai data nol
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np import os
#pip install kagglehub import kagglehub # Download latest version path = kagglehub.dataset_download("imakash3011/customer-personality-analysis") print("Path to dataset files:", path)
Kami dapat melihat bahawa kami mempunyai 24 data nol dalam lajur Pendapatan, namun lajur ini tidak akan digunakan dalam analisis ini oleh itu kami tidak akan melakukan apa-apa dengannya, sekiranya anda ingin menggunakannya, anda mesti mengesahkan melaksanakan salah satu daripada dua pilihan ini:
Kami akan menyimpan lajur yang menarik minat kami, seperti pendidikan, anak, status perkahwinan, jumlah perbelanjaan bagi setiap kategori produk, antara lain.
#Obtenemos el nombre del archivo nombre_archivo = os.listdir(path)[0] nombre_archivo
Kami mengira jumlah perbelanjaan dengan menambah perbelanjaan semua kategori produk.
'marketing_campaign.csv'
Atas ialah kandungan terperinci Daripada Data kepada Strategi: Bagaimana Statistik Boleh Memacu Keputusan Pemasaran yang Boleh Dipercayai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!