Rumah > pembangunan bahagian belakang > Tutorial Python > Daripada Data kepada Keputusan: Bagaimana Analisis Data dan Pembelajaran Mesin Boleh Memacu Pertumbuhan Perniagaan

Daripada Data kepada Keputusan: Bagaimana Analisis Data dan Pembelajaran Mesin Boleh Memacu Pertumbuhan Perniagaan

WBOY
Lepaskan: 2024-08-11 12:47:35
asal
797 orang telah melayarinya

Dalam artikel ini, kami meneroka dan menganalisis set data jualan untuk mendapatkan cerapan berharga dan memacu pertumbuhan perniagaan. Kami telah melaksanakan pelbagai langkah, daripada prapemprosesan data kepada latihan model pembelajaran mesin, untuk mengekstrak maklumat yang bermakna dan membuat keputusan termaklum. Melalui dokumentasi ini, kami menyasarkan untuk membentangkan penemuan, metodologi dan cadangan kami untuk meningkatkan prestasi jualan, mengenal pasti segmen pelanggan utama dan mengoptimumkan strategi pemasaran.

Gambaran Keseluruhan Set Data

Dalam set data ini, kami mempunyai ciri berikut:

  • ID_ORDER: Pengecam unik untuk setiap pesanan.
  • ID_PELANGGAN: Pengecam untuk pelanggan yang membuat pesanan.
  • ID_PRODUK: Pengecam untuk produk dalam pesanan.
  • TARIKH_TEMPAHAN: Tarikh pesanan dibuat.
  • KUANTITI: Kuantiti produk dalam pesanan.
  • HARGA_UNIT: Harga seunit produk dalam pesanan.
  • JUMLAH_JUALAN: Jumlah jualan untuk pesanan ini (dikira sebagai KUANTITI * UNIT_PRICE).
  • CUSTOMER_FEATURE_1, CUSTOMER_FEATURE_2: Ciri sintetik yang mewakili sifat pelanggan.
  • PRODUCT_FEATURE_1, PRODUCT_FEATURE_2: Ciri sintetik yang mewakili sifat produk.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

Apa yang Anda Akan Pelajari

Dalam artikel ini, kami membimbing anda melalui:

. Pembersihan Data dan Prapemprosesan: Cara kami membersihkan set data dan mengendalikan nilai yang hilang, dengan penjelasan kaedah yang dipilih.
. Analisis Data Penerokaan: Cerapan tentang pengedaran jualan, perhubungan antara ciri dan pengenalpastian corak atau anomali.
. Pembangunan dan Penilaian Model: Melatih model pembelajaran mesin untuk meramalkan TOTAL_SALES, menilai prestasinya dengan metrik yang berkaitan.
. Business Insights: Penemuan utama untuk meningkatkan prestasi jualan, mengoptimumkan strategi pemasaran dan mengenal pasti kategori produk dan segmen pelanggan berprestasi tinggi.

Mari selami analisis dan temui cara cerapan ini boleh memacu pertumbuhan perniagaan.

. Pembersihan Data dan Prapemprosesan

1. Menyelam Dalam Set Data: Mengesan Nilai Null

Untuk memastikan ketepatan analisis kami, kami bermula dengan memeriksa set data secara menyeluruh untuk mengenal pasti lajur dengan nilai yang tiada atau batal. Kami mengira bilangan nilai nol dalam setiap lajur untuk menilai tahap kehilangan data. Langkah ini penting kerana nilai yang tiada boleh memberi kesan ketara kepada kualiti analisis kami.

2. Mengkategorikan Data: Mengenalpasti Lajur Kategori

Seterusnya, kami mengenal pasti lajur kategori dalam set data kami. Lajur ini biasanya mengandungi nilai diskret yang mewakili kategori atau label yang berbeza. Dengan menilai bilangan nilai unik dalam setiap lajur kategori, kami memperoleh cerapan tentang kepelbagaian kategori yang ada, yang membantu kami memahami pola pengumpulan dan perhubungan yang berpotensi dalam data.

3. Gambaran Keseluruhan Set Data dan Mengendalikan Data yang Hilang

Kami menggunakan fungsi describe() untuk mendapatkan ringkasan padat lajur berangka set data. Fungsi ini menyediakan sifat statistik penting, termasuk kiraan, min, sisihan piawai, kuartil, nilai minimum dan maksimum. Analisis histogram dan plot kotak kami mendedahkan bahawa lajur berangka tidak menunjukkan kecondongan yang ketara. Oleh itu, untuk mengendalikan nilai yang hilang, kami memilih untuk menggantikannya dengan nilai min bagi setiap lajur masing-masing. Pendekatan ini membantu mengekalkan integriti data untuk analisis seterusnya.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

4. Menukar Lajur Kategori: Mencipta Perwakilan Berangka

Untuk menyediakan data kategori bagi algoritma pembelajaran mesin, kami menggunakan teknik seperti pengekodan one-hot dan fungsi get_dummies(). Kaedah ini menukar lajur kategori kepada format berangka dengan mencipta pembolehubah binari, membolehkan algoritma memproses dan menganalisis data dengan berkesan.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

5. Pemilihan Ciri: Mengalih keluar Lajur yang Tidak Diperlukan

Akhir sekali, kami memeriksa lajur 'ORDER_DATE' dan 'ORDER_ID'. Memandangkan lajur ini mengandungi nilai unik untuk setiap baris, lajur ini tidak memberikan corak atau perhubungan yang bermakna untuk model pembelajaran mesin. Memasukkan mereka dalam model tidak akan menyumbang maklumat berharga untuk meramalkan pembolehubah sasaran. Akibatnya, kami memutuskan untuk mengecualikan lajur ini daripada set ciri yang digunakan untuk pemodelan ML. Kami membuat salinan bingkai data asal sebelum mengalih keluar lajur ini. Salinan ini akan digunakan untuk visualisasi dan menganalisis hubungan ciri, manakala bingkai data yang diubah suai, dengan lajur yang tidak perlu digugurkan, akan digunakan untuk latihan model untuk meningkatkan prestasi ramalan.

. Analisis Data Penerokaan

Dalam bahagian ini, kami menyelidiki penerokaan set data yang mendalam untuk memahami hubungan antara pelbagai ciri dan jualan. Analisis kami menumpukan pada segmen pelanggan, kategori produk dan aliran bermusim untuk mendedahkan cerapan yang boleh meningkatkan prestasi jualan.

Untuk mendedahkan corak yang bermakna, kami menggunakan pelbagai teknik visualisasi, termasuk plot bar, plot garisan dan statistik deskriptif. Penerokaan ini bertujuan untuk mengenal pasti segmen pelanggan yang dominan, kategori produk popular dan variasi dalam gelagat jualan dari semasa ke semasa.

Berikut ialah penemuan utama daripada analisis penerokaan kami:

1. Kekerapan Segmen Pelanggan

  • Segmen pelanggan 'Y' muncul sebagai yang paling kerap, diikuti oleh 'Z' dan 'X.' Setiap segmen berbeza dengan kira-kira 10,000 kejadian dalam pesanan.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

2. Kategori Produk Kekerapan

  • Kategori produk 'B' mempunyai kekerapan tertinggi, dengan lebih kurang 110,000 lebih kejadian daripada kategori lain ('A,' 'C,' dan 'D'), yang mempunyai kekerapan yang agak hampir.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

3. Kategori Produk dan Kekerapan Gabungan Segmen Pelanggan

  • Gabungan segmen pelanggan 'Y' dan kategori produk 'B' adalah yang paling kerap.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

4. Jumlah Jumlah Jualan untuk Setiap Produk

  • Produk 78 mencatatkan jumlah jualan tertinggi pada 12,533,460, manakala produk 21 mencatatkan jumlah jualan terendah pada 11,956,700. Ini menunjukkan bahawa jumlah jumlah jualan adalah agak hampir untuk produk yang berbeza.

5. Bilangan Produk Dipesan mengikut Musim dan Tahun (Plot Bar)

  • Pesanan adalah lebih rendah pada musim sejuk berbanding musim lain. Selain itu, bilangan pesanan untuk setiap musim pada tahun 2022 dan 2023 adalah serupa, kecuali untuk musim sejuk, di mana pada tahun 2023 menyaksikan pesanan kurang daripada 2022.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

6. Bilangan Produk Dipesan Mengikut Musim (Plot Baris)

  • Penurunan umum dalam pesanan produk diperhatikan semasa musim sejuk. Tahun 2023 menunjukkan penurunan dalam pesanan berbanding 2022, terutamanya pada musim sejuk.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

7. Bilangan Produk Tempahan Mengikut Bulan

  • Februari mencatatkan kadar pesanan terendah. Pesanan lebih tinggi untuk bulan ganjil pada separuh pertama tahun dan untuk bulan genap pada separuh kedua, kecuali pada bulan Disember 2023, yang sepadan dengan volum pesanan November 2023.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

8. Jumlah Amaun Jualan mengikut Musim

  • Bulan musim sejuk pada 2022 dan 2023 mengalami jumlah jualan yang lebih rendah berbanding musim lain. Selain itu, jumlah jualan pada musim sejuk 2023 adalah lebih rendah sedikit berbanding musim sejuk 2022.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

Analisis penerokaan ini memberikan cerapan berharga tentang dinamik jualan dan gelagat pelanggan. Dengan memahami corak ini, kami boleh membuat keputusan termaklum dan membangunkan strategi untuk mengoptimumkan prestasi jualan dan memacu pertumbuhan hasil.

. Pembangunan dan Penilaian Model

Dalam bahagian ini, kami memperincikan proses latihan dan menilai model pembelajaran mesin untuk meramalkan jumlah jualan. Langkah berikut menggariskan pendekatan kami:

1. Prapemprosesan Data

Kami bermula dengan membersihkan dan menyediakan set data, mengendalikan nilai yang hilang dan pengekodan pembolehubah kategori. Penyediaan ini adalah penting untuk memastikan set data sesuai untuk pemodelan.

  • Memisahkan Data: Kami membahagikan data praproses kepada set latihan dan ujian, memperuntukkan 70% untuk latihan dan 30% untuk ujian. Pemisahan ini membantu kami menilai prestasi model pada data yang tidak kelihatan, memastikan penilaian yang boleh dipercayai tentang keupayaannya untuk digeneralisasikan.

Walaupun pada mulanya kami menyasarkan untuk menggunakan pengesahan silang lipatan k untuk penilaian yang lebih mantap, had memori dan kerumitan model tertentu seperti MLP, RBF dan XGBoost menyebabkan kami menggunakan kaedah pemisahan ujian kereta api. Walaupun mudah, kaedah ini menyediakan alternatif yang berdaya maju untuk menilai prestasi model.

2. Pemilihan Model

Kami memilih algoritma pembelajaran mesin berikut berdasarkan kerumitan set data jualan dan sifat masalah:

  • MLP (Multi-Layer Perceptron): Sesuai untuk menangkap interaksi bukan linear dan corak tersembunyi dalam data, MLP boleh mengendalikan kerumitan pelbagai segmen pelanggan, kategori produk dan bermusim dengan berkesan. corak.

  • XGBoost: Terkenal dengan kekukuhannya terhadap overfitting dan keupayaan untuk mengendalikan data berstruktur, XGBoost membantu mengenal pasti kepentingan ciri dan memahami faktor yang mempengaruhi jualan.

  • Random Forest: Dengan pendekatan ensemblenya, Random Forest mengurus data berdimensi tinggi dengan baik dan mengurangkan risiko overfitting, menawarkan ramalan yang stabil walaupun dengan data yang bising.

  • Gradient Boosting: Dengan menggabungkan pelajar lemah secara berurutan, Gradient Boosting menangkap perhubungan ciri yang kompleks dan meningkatkan prestasi model secara berulang.

3. Melatih Model

Setiap model yang dipilih telah dilatih menggunakan set data latihan dengan kaedah .fit().

4. Penilaian Model

Kami menilai model terlatih menggunakan beberapa metrik:

  • Mean Squared Error (MSE): Mengukur purata perbezaan kuasa dua antara nilai yang diramalkan dan sebenar. MSE yang lebih rendah menunjukkan ketepatan yang lebih baik.

  • Min Ralat Mutlak (MAE): Mengira purata perbezaan mutlak antara nilai ramalan dan sebenar, mencerminkan purata magnitud ralat. MAE yang lebih rendah juga menunjukkan prestasi yang lebih baik.

  • Skor R-kuadrat: Mewakili perkadaran varians dalam pembolehubah sasaran (TOTAL_SALES) yang dijelaskan oleh model. Skor R-kuadrat lebih hampir kepada 1 mencadangkan kesesuaian yang lebih baik.

Tafsiran Keputusan:

  • MLP (Multi-Layer Perceptron): Mencapai MSE dan MAE yang sangat rendah, dengan skor R-squared menghampiri 1, menunjukkan prestasi cemerlang dalam meramalkan TOTAL_SALES.

  • XGBoost: Juga berprestasi baik dengan nilai MSE dan MAE yang agak rendah serta skor R kuasa dua yang tinggi, menunjukkan korelasi yang kuat antara nilai yang diramalkan dan nilai sebenar.

  • Hutan Rawak: Menyampaikan MSE dan MAE terendah antara semua model dan skor R kuasa dua yang tinggi, menjadikannya paling tepat untuk meramalkan TOTAL_SALES.

  • Peningkatan Kecerunan: Walaupun ia mempunyai MSE dan MAE yang lebih tinggi berbanding model lain, ia masih menunjukkan korelasi yang kukuh antara ramalan dan nilai sebenar dengan skor kuasa dua R yang tinggi.

Ringkasnya, model Random Forest muncul sebagai prestasi terbaik, dengan MSE dan MAE terendah dan skor R-kuadrat tertinggi.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

5. Penalaan Hiperparameter

Kami melakukan penalaan hiperparameter menggunakan teknik seperti carian grid atau carian rawak untuk mengoptimumkan prestasi model dengan lebih lanjut.

6. Ramalan

Model terlatih digunakan untuk membuat ramalan pada data baharu dengan kaedah .predict().

7. Penerapan Model

Kami menggunakan model berprestasi terbaik dalam persekitaran pengeluaran untuk memudahkan penggunaan dunia sebenar.

8. Pemantauan dan Penyelenggaraan Model

Pemantauan berterusan prestasi model adalah penting. Kami akan mengemas kini model mengikut keperluan untuk mengekalkan ketepatan dari semasa ke semasa.

9. Tafsiran dan Analisis

Akhir sekali, kami menganalisis keputusan model untuk mendapatkan cerapan yang boleh diambil tindakan dan membuat keputusan perniagaan yang termaklum.

Pendekatan komprehensif ini memastikan kami membangunkan model yang teguh dan tepat yang boleh meramalkan jualan secara berkesan dan menyokong pembuatan keputusan strategik.

. Wawasan Perniagaan

Analisis data kami telah menemui beberapa cerapan utama yang boleh memacu pertumbuhan jualan dan mengoptimumkan strategi perniagaan:

1. Pemasaran Sasaran

  • Segmen pelanggan 'Y' menunjukkan kekerapan pembelian yang lebih tinggi berbanding 'Z' dan 'X.' Untuk memanfaatkan ini, kami mengesyorkan agar anda melaksanakan kempen pemasaran disasarkan yang direka khusus untuk segmen 'Y.' Pendekatan ini boleh melibatkan lagi kumpulan pelanggan berpotensi tinggi ini dan meningkatkan jualan.

2. Promosi Produk

  • Kategori produk 'B' menunjukkan kekerapan pembelian tertinggi antara semua kategori. Memfokuskan usaha promosi pada produk dalam kategori 'B' boleh memanfaatkan popularitinya dan memacu jualan tambahan. Kempen pemasaran yang disesuaikan dan tawaran istimewa untuk kategori ini boleh meningkatkan kejayaannya.

3. Ganjaran dan Insentif Pelanggan

  • Memperkenalkan program ganjaran yang bertujuan untuk segmen pelanggan 'X' dan 'Z' boleh menggalakkan pembelian berulang dan membina kesetiaan pelanggan. Diskaun atau insentif yang diperibadikan boleh mendorong segmen ini untuk meningkatkan kekerapan pembelian mereka dan meningkatkan jualan keseluruhan.

4. Cadangan Produk

  • Menggunakan analisis data untuk menawarkan pengesyoran produk yang diperibadikan kepada pelanggan dalam segmen 'Y' dan untuk produk dalam kategori 'B' boleh meningkatkan pengalaman membeli-belah dengan ketara. Pengesyoran yang dipertingkatkan berkemungkinan meningkatkan peluang jualan silang dan memacu jualan tambahan.

5. Meningkatkan Pengalaman Pelanggan

  • Meningkatkan keseluruhan pengalaman pelanggan—melalui sokongan pelanggan yang luar biasa, antara muka intuitif dan interaksi yang lancar—boleh mempengaruhi semua segmen pelanggan dan kategori produk secara positif. Pengalaman pelanggan yang unggul menggalakkan penukaran dan memupuk perniagaan berulang.

Dengan memanfaatkan cerapan ini, kami boleh menyesuaikan strategi untuk menyasarkan segmen pelanggan dan kategori produk tertentu secara berkesan, mengoptimumkan prestasi jualan dan memacu pertumbuhan hasil. Pemantauan dan penyesuaian berterusan berdasarkan analisis data yang berterusan akan menjadi penting untuk mengekalkan kejayaan dan mencapai objektif perniagaan.

Atas ialah kandungan terperinci Daripada Data kepada Keputusan: Bagaimana Analisis Data dan Pembelajaran Mesin Boleh Memacu Pertumbuhan Perniagaan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:dev.to
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan