Des données aux décisions : comment l'analyse des données et l'apprentissage automatique peuvent stimuler la croissance des entreprises-Tutoriel Python-php.cn

Dans cet article, nous explorons et analysons un ensemble de données de ventes pour obtenir des informations précieuses et stimuler la croissance de l'entreprise. Nous avons entrepris diverses étapes, du prétraitement des données à la formation de modèles d'apprentissage automatique, pour extraire des informations significatives et prendre des décisions éclairées. À travers cette documentation, nous visons à présenter nos résultats, méthodologies et recommandations pour améliorer les performances commerciales, identifier les segments de clientèle clés et optimiser les stratégies marketing.

Aperçu de l'ensemble de données

Dans cet ensemble de données, nous avons les fonctionnalités suivantes :

ORDER_ID : Identifiant unique de chaque commande.
CUSTOMER_ID : Identifiant du client ayant passé la commande.
PRODUCT_ID : Identifiant du produit dans la commande.
ORDER_DATE : Date à laquelle la commande a été passée.
QUANTITÉ : Quantité du produit dans la commande.
UNIT_PRICE : Prix unitaire du produit dans la commande.
TOTAL_SALES : ventes totales pour cette commande (calculées comme QUANTITY * UNIT_PRICE).
CUSTOMER_FEATURE_1, CUSTOMER_FEATURE_2 : Caractéristiques synthétiques représentant les propriétés du client.
PRODUCT_FEATURE_1, PRODUCT_FEATURE_2 : caractéristiques synthétiques représentant les propriétés du produit.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

Ce que vous apprendrez

Dans cet article, nous vous guidons à travers :

. Nettoyage et prétraitement des données : Comment nous avons nettoyé l'ensemble de données et traité les valeurs manquantes, avec une explication des méthodes choisies.
. Analyse exploratoire des données : informations sur la répartition des ventes, les relations entre les fonctionnalités et l'identification de modèles ou d'anomalies.
. Développement et évaluation de modèles : formation d'un modèle d'apprentissage automatique pour prévoir TOTAL_SALES, en évaluant ses performances avec des métriques pertinentes.
. Business Insights : résultats clés pour améliorer les performances commerciales, optimiser les stratégies marketing et identifier les catégories de produits et les segments de clientèle les plus performants.

Plongeons dans l'analyse et découvrons comment ces informations peuvent stimuler la croissance de l'entreprise.

. Nettoyage et prétraitement des données

1. Une plongée approfondie dans l'ensemble de données : détection des valeurs nulles

Pour garantir l'exactitude de notre analyse, nous avons commencé par examiner minutieusement l'ensemble de données pour identifier les colonnes avec des valeurs manquantes ou nulles. Nous avons compté le nombre de valeurs nulles dans chaque colonne pour évaluer l'étendue des données manquantes. Cette étape est cruciale car les valeurs manquantes peuvent avoir un impact significatif sur la qualité de notre analyse.

2. Catégorisation des données : identification des colonnes catégorielles

Ensuite, nous avons identifié les colonnes catégorielles de notre ensemble de données. Ces colonnes contiennent généralement des valeurs discrètes représentant différentes catégories ou étiquettes. En évaluant le nombre de valeurs uniques dans chaque colonne catégorielle, nous avons obtenu un aperçu de la diversité des catégories présentes, ce qui nous aide à comprendre les modèles de regroupement potentiels et les relations au sein des données.

3. Présentation de l'ensemble de données et gestion des données manquantes

Nous avons utilisé la fonction décrire() pour obtenir un résumé concis des colonnes numériques de l'ensemble de données. Cette fonction fournit des propriétés statistiques essentielles, notamment le nombre, la moyenne, l'écart type, les quartiles, les valeurs minimales et maximales. Nos analyses d'histogramme et de box plot ont révélé que les colonnes numériques ne présentaient pas d'asymétrie significative. Par conséquent, pour gérer les valeurs manquantes, nous avons choisi de les remplacer par la valeur moyenne de chaque colonne respective. Cette approche permet de maintenir l'intégrité des données pour une analyse ultérieure.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

4. Conversion de colonnes catégorielles : création de représentations numériques

Pour préparer les données catégorielles pour les algorithmes d'apprentissage automatique, nous avons utilisé des techniques telles que l'encodage à chaud et la fonction get_dummies(). Ces méthodes convertissent les colonnes catégorielles en formats numériques en créant des variables binaires, permettant aux algorithmes de traiter et d'analyser efficacement les données.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

5. Sélection des fonctionnalités : suppression des colonnes inutiles

Enfin, nous avons examiné les colonnes 'ORDER_DATE' et 'ORDER_ID'. Étant donné que ces colonnes contiennent des valeurs uniques pour chaque ligne, elles ne fournissent pas de modèles ou de relations significatives pour les modèles d'apprentissage automatique. Les inclure dans le modèle ne fournirait pas d’informations précieuses pour prédire la variable cible. Par conséquent, nous avons décidé d'exclure ces colonnes de l'ensemble de fonctionnalités utilisé pour la modélisation ML. Nous avons fait une copie du dataframe d'origine avant de supprimer ces colonnes. Cette copie sera utilisée pour la visualisation et l'analyse des relations entre les fonctionnalités, tandis que la trame de données modifiée, avec les colonnes inutiles supprimées, sera utilisée pour la formation du modèle afin d'améliorer les performances de prédiction.

. Analyse exploratoire des données

Dans cette section, nous approfondissons l'exploration de l'ensemble de données pour comprendre les relations entre les différentes fonctionnalités et les ventes. Notre analyse se concentre sur les segments de clientèle, les catégories de produits et les tendances saisonnières pour découvrir des informations susceptibles d'améliorer les performances des ventes.

Pour révéler des modèles significatifs, nous avons utilisé diverses techniques de visualisation, notamment des graphiques à barres, des graphiques linéaires et des statistiques descriptives. Cette exploration visait à identifier les segments de clientèle dominants, les catégories de produits populaires et les variations du comportement de vente au fil du temps.

Voici les principales conclusions de notre analyse exploratoire :

1. Fréquence des segments de clientèle

Le segment de clientèle « Y » est apparu comme le plus fréquent, suivi de « Z » et « X ». Chaque segment différait d'environ 10 000 occurrences dans les commandes.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

2. Catégories de produits Fréquence

La catégorie de produits « B » avait la fréquence la plus élevée, avec environ 110 000 occurrences de plus que les autres catégories (« A », « C » et « D »), qui étaient relativement proches en fréquence.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

3. Fréquence de combinaison de catégories de produits et de segments de clientèle

La combinaison du segment de clientèle « Y » et de la catégorie de produits « B » était la plus fréquente.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

4. Montant total des ventes pour chaque produit

Le produit 78 a enregistré le montant total des ventes le plus élevé à 12 533 460, tandis que le produit 21 a enregistré le montant le plus bas à 11 956 700. Cela indique que les montants totaux des ventes sont relativement proches pour différents produits.

5. Nombre de produits commandés par saison et année (graphique à barres)

Les commandes étaient nettement inférieures en hiver par rapport aux autres saisons. De plus, le nombre de commandes pour chaque saison en 2022 et 2023 était similaire, à l'exception de l'hiver, où 2023 a enregistré moins de commandes qu'en 2022.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

6. Nombre de produits commandés par saison (tracé linéaire)

Une diminution générale des commandes de produits a été observée durant l'hiver. L'année 2023 a montré une baisse des commandes par rapport à 2022, notamment en hiver.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

7. Nombre de produits commandés par mois

Février a enregistré le taux de commandes le plus bas. Les commandes ont été plus élevées pour les mois impairs au premier semestre et pour les mois pairs au second semestre, à l'exception de décembre 2023, qui a égalé novembre 2023 en volume de commandes.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

8. Montant total des ventes par saison

Les mois d'hiver 2022 et 2023 ont connu des ventes totales inférieures à celles des autres saisons. De plus, les ventes totales de l’hiver 2023 étaient légèrement inférieures à celles de l’hiver 2022.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

Ces analyses exploratoires fournissent des informations précieuses sur la dynamique des ventes et le comportement des clients. En comprenant ces modèles, nous pouvons prendre des décisions éclairées et développer des stratégies pour optimiser les performances des ventes et stimuler la croissance des revenus.

. Développement et évaluation de modèles

Dans cette section, nous détaillons le processus de formation et d'évaluation des modèles d'apprentissage automatique pour prévoir les ventes totales. Les étapes suivantes décrivent notre approche :

1. Prétraitement des données

Nous avons commencé par nettoyer et préparer l'ensemble de données, gérer les valeurs manquantes et encoder les variables catégorielles. Cette préparation était cruciale pour garantir que l'ensemble de données était adapté à la modélisation.

Diviser les données : Nous avons divisé les données prétraitées en ensembles de formation et de test, en allouant 70 % à la formation et 30 % aux tests. Cette répartition nous aide à évaluer les performances du modèle sur des données invisibles, garantissant une évaluation fiable de sa capacité à généraliser.

Bien que nous ayons initialement visé à utiliser la validation croisée k-fold pour une évaluation plus robuste, les limitations de mémoire et la complexité de certains modèles comme MLP, RBF et XGBoost nous ont conduits à utiliser la méthode de fractionnement train-test. Malgré sa simplicité, cette méthode constitue une alternative viable pour évaluer les performances du modèle.

2. Sélection du modèle

Nous avons sélectionné les algorithmes d'apprentissage automatique suivants en fonction de la complexité de l'ensemble de données de vente et de la nature du problème :

MLP (Multi-Layer Perceptron) : adapté à la capture d'interactions non linéaires et de modèles cachés dans les données, MLP peut gérer efficacement la complexité de divers segments de clientèle, catégories de produits et saisons. modèles.
XGBoost : connu pour sa robustesse contre le surajustement et sa capacité à gérer des données structurées, XGBoost aide à identifier l'importance des fonctionnalités et à comprendre les facteurs affectant les ventes.
Random Forest : Grâce à son approche d'ensemble, Random Forest gère bien les données de grande dimension et réduit le risque de surajustement, offrant des prédictions stables même avec des données bruyantes.
Gradient Boosting : en combinant séquentiellement les apprenants faibles, Gradient Boosting capture les relations de fonctionnalités complexes et améliore les performances du modèle de manière itérative.

3. Entraîner le modèle

Chaque modèle sélectionné a été entraîné à l'aide de l'ensemble de données d'entraînement avec la méthode .fit().

4. Évaluation du modèle

Nous avons évalué les modèles entraînés à l'aide de plusieurs métriques :

Erreur quadratique moyenne (MSE) : Mesure la moyenne des différences quadratiques entre les valeurs prédites et réelles. Un MSE inférieur indique une meilleure précision.
Erreur absolue moyenne (MAE) : calcule la moyenne des différences absolues entre les valeurs prédites et réelles, reflétant l'ampleur moyenne des erreurs. Un MAE inférieur indique également de meilleures performances.
Score R au carré : Représente la proportion de variance dans la variable cible (TOTAL_SALES) expliquée par le modèle. Un score R au carré plus proche de 1 suggère un meilleur ajustement.

Interprétation des résultats :

MLP (Multi-Layer Perceptron) : atteint un MSE et un MAE très faibles, avec un score R au carré proche de 1, indiquant d'excellentes performances dans la prédiction des TOTAL_SALES.
XGBoost : a également obtenu de bons résultats avec des valeurs MSE et MAE relativement faibles et un score R au carré élevé, montrant une forte corrélation entre les valeurs prédites et réelles.
Random Forest : a fourni les MSE et MAE les plus bas parmi tous les modèles et un score R au carré élevé, ce qui en fait le plus précis pour prévoir TOTAL_SALES.
Gradient Boosting : bien qu'il ait un MSE et un MAE plus élevés par rapport aux autres modèles, il a néanmoins démontré une forte corrélation entre les prédictions et les valeurs réelles avec un score R au carré élevé.

En résumé, le modèle Random Forest est apparu comme le plus performant, avec les MSE et MAE les plus bas et le score R au carré le plus élevé.

From Data to Decisions: How Data Analysis and Machine Learning Can Drive Business Growth

5. Réglage des hyperparamètres

Nous avons effectué le réglage des hyperparamètres à l'aide de techniques telles que la recherche par grille ou la recherche aléatoire pour optimiser davantage les performances des modèles.

6. Prédiction

Les modèles entraînés ont été utilisés pour faire des prédictions sur de nouvelles données avec la méthode .predict().

7. Déploiement du modèle

Nous avons déployé le modèle le plus performant dans un environnement de production pour faciliter son utilisation dans le monde réel.

8. Suivi et maintenance du modèle

Un suivi continu des performances du modèle est essentiel. Nous mettrons à jour le modèle si nécessaire pour maintenir la précision au fil du temps.

9. Interprétation et analyse

Enfin, nous avons analysé les résultats du modèle pour obtenir des informations exploitables et prendre des décisions commerciales éclairées.

Cette approche globale garantit que nous développons des modèles robustes et précis capables de prévoir efficacement les ventes et de soutenir la prise de décision stratégique.

. Perspectives commerciales

Notre analyse de données a révélé plusieurs informations clés qui peuvent stimuler la croissance des ventes et optimiser les stratégies commerciales :

1. Marketing ciblé

Le segment de clientèle « Y » a démontré une fréquence d'achat plus élevée que « Z » et « X ». Pour tirer parti de cela, nous vous recommandons de mettre en œuvre des campagnes marketing ciblées spécifiquement conçues pour le segment « Y ». Cette approche peut impliquer davantage ce groupe de clients à fort potentiel et stimuler les ventes.

2. Promotion du produit

La catégorie de produits « B » a affiché la fréquence d'achat la plus élevée parmi toutes les catégories. Concentrer les efforts promotionnels sur les produits de la catégorie « B » peut tirer parti de sa popularité et générer des ventes supplémentaires. Des campagnes marketing sur mesure et des offres spéciales pour cette catégorie peuvent amplifier son succès.

3. Récompenses et incitations clients

L'introduction d'un programme de récompenses destiné aux segments de clientèle « X » et « Z » peut encourager les achats répétés et fidéliser la clientèle. Des remises ou des incitations personnalisées peuvent motiver ces segments à augmenter leur fréquence d'achat et à améliorer les ventes globales.

4. Recommandations de produits

L'utilisation de l'analyse des données pour proposer des recommandations de produits personnalisées aux clients du segment « Y » et pour les produits de la catégorie « B » peut améliorer considérablement l'expérience d'achat. Des recommandations améliorées sont susceptibles d’augmenter les opportunités de ventes croisées et de générer des ventes supplémentaires.

5. Améliorer l'expérience client

L'amélioration de l'expérience client globale, grâce à un support client exceptionnel, des interfaces intuitives et des interactions transparentes, peut influencer positivement tous les segments de clientèle et catégories de produits. Une expérience client supérieure encourage les conversions et favorise la fidélité des clients.

En tirant parti de ces informations, nous pouvons adapter des stratégies pour cibler efficacement des segments de clientèle et des catégories de produits spécifiques, optimisant ainsi les performances des ventes et stimulant la croissance des revenus. Une surveillance et une adaptation continues basées sur une analyse continue des données seront cruciales pour maintenir le succès et atteindre les objectifs commerciaux.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!