Table des matières
1. Préparation
2 Description statistique pour découvrir des modèles
3. Règles d'analyse de la visualisation des données
4. Analyse de regroupement et d'agrégation pour découvrir des modèles
5. Analyse des algorithmes d'apprentissage automatique et découverte de modèles
Maison développement back-end Tutoriel Python Comment utiliser Python pour découvrir des modèles dans les données

Comment utiliser Python pour découvrir des modèles dans les données

Apr 28, 2023 pm 01:43 PM
python

1. Préparation

Avant de commencer, vous devez vous assurer que Python et pip ont été installés avec succès sur votre ordinateur.

(Facultatif 1) Si vous utilisez Python pour l'analyse des données, vous pouvez installer Anaconda directement, qui intègre Python et pip

(Facultatif 2) De plus, il est recommandé d'utiliser le VSCode. éditeur, qui présente de nombreux avantages

Veuillez choisir l'une des méthodes suivantes pour saisir la commande permettant d'installer les dépendances :

1 Ouvrir Cmd (Démarrer-Exécuter-CMD) dans un environnement Windows.

2. Environnement MacOS Ouvrez Terminal (commande + espace pour entrer dans le Terminal).

3. Si vous utilisez l'éditeur VSCode ou Pycharm, vous pouvez utiliser directement le Terminal en bas de l'interface.

pip install pandas
pip install numpy
pip install scipy
pip install seaborn
pip install matplotlib

# 机器学习部分
pip install scikit-learn
Copier après la connexion

2 Description statistique pour découvrir des modèles

En utilisant Python pour la description statistique, vous pouvez utiliser certains construits. -dans des bibliothèques, telles que Numpy et Pandas.

Voici quelques fonctions de description statistique de base :

Moyenne (moyenne) : calcule la moyenne d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
mean = np.mean(data)
print(mean)
Copier après la connexion

Le résultat de sortie est : 3,0

Médiane (médiane) : calcule la médiane d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
median = np.median(data)
print(median)
Copier après la connexion

Le résultat de sortie est : 3.0

Mode (mode) : Calcule le mode d'un ensemble de données.

import scipy.stats as stats

data = [1, 2, 2, 3, 4, 4, 4, 5]
mode = stats.mode(data)
print(mode)
Copier après la connexion

Le résultat de sortie est : ModeResult(mode=array([4]), count=array([3]))

Variance (variance) : Calculez la variance d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
variance = np.var(data)
print(variance)
Copier après la connexion

Le résultat de sortie est : 2,0

Écart type (écart type) : calculez l'écart type d'un ensemble de données.

import numpy as np

data = [1, 2, 3, 4, 5]
std_dev = np.std(data)
print(std_dev)
Copier après la connexion

Le résultat de sortie est : 1.4142135623730951

Ci-dessus sont quelques fonctions de description statistique de base. Il existe d'autres fonctions qui peuvent être utilisées. Veuillez consulter les documents correspondants pour les méthodes d'utilisation spécifiques.

3. Règles d'analyse de la visualisation des données

Python dispose de nombreuses bibliothèques qui peuvent être utilisées pour la visualisation des données, dont les plus couramment utilisées sont Matplotlib et Seaborn. Voici quelques méthodes de base de visualisation des données :

Line plot (line plot) : peut être utilisé pour afficher les tendances au fil du temps ou d'une certaine variable.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.plot(x, y)
plt.show()
Copier après la connexion

Nuage de points : peut être utilisé pour montrer la relation entre deux variables.

import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

plt.scatter(x, y)
plt.show()
Copier après la connexion

Histogramme : peut être utilisé pour montrer la distribution de données numériques.

import matplotlib.pyplot as plt

data = [1, 2, 2, 3, 4, 4, 4, 5]

plt.hist(data, bins=5)
plt.show()
Copier après la connexion

Box plot (box plot) : peut être utilisé pour afficher des informations telles que la médiane, les quartiles et les valeurs aberrantes de données numériques.

import seaborn as sns

data = [1, 2, 2, 3, 4, 4, 4, 5]

sns.boxplot(data)
plt.show()
Copier après la connexion

Graphique à barres : peut être utilisé pour montrer des différences ou des comparaisons entre des variables catégorielles.

import matplotlib.pyplot as plt

categories = ['A', 'B', 'C', 'D']
values = [10, 20, 30, 40]

plt.bar(categories, values)
plt.show()
Copier après la connexion

Voici quelques méthodes de visualisation de données de base. Matplotlib et Seaborn fournissent des fonctions plus riches qui peuvent être utilisées pour créer des tableaux et des graphiques plus complexes.

4. Analyse de regroupement et d'agrégation pour découvrir des modèles

En Python, vous pouvez utiliser la bibliothèque pandas pour regrouper et agréger facilement des données afin de découvrir des modèles dans les données. Voici un exemple de regroupement et d'agrégation de base :

Supposons que nous ayons un ensemble de données avec la date de vente, le montant des ventes et le nom du vendeur, et que nous souhaitions connaître les ventes totales de chaque vendeur. Nous pouvons regrouper par nom de vendeur et appliquer des fonctions d'agrégation telles que somme, moyenne, etc. à chaque groupe. Voici un exemple de code :

import pandas as pd

# 创建数据集
data = {'sales_date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08', '2022-01-09', '2022-01-10'],
        'sales_amount': [100, 200, 150, 300, 250, 400, 350, 450, 500, 600],
        'sales_person': ['John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane', 'John', 'Jane']}

df = pd.DataFrame(data)

# 按销售员名称分组,并对每个组的销售金额求和
grouped = df.groupby('sales_person')['sales_amount'].sum()

print(grouped)
Copier après la connexion

Le résultat est :

sales_person
Jane 2200
John 1800
Name : sales_amount, dtype: int64

Comme vous pouvez le voir, nous avons réussi à regrouper par nom de vendeur et à additionner les montants des ventes pour chaque groupe. De cette façon, nous pouvons connaître les ventes totales de chaque vendeur et comprendre la structure des données.

5. Analyse des algorithmes d'apprentissage automatique et découverte de modèles

Vous pouvez utiliser la bibliothèque scikit-learn pour implémenter des algorithmes d'apprentissage automatique et découvrir des modèles dans les données. Ce qui suit est un exemple de base montrant comment utiliser l'algorithme de l'arbre de décision pour classer les données et découvrir des modèles dans les données :

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 创建数据集
data = {'age': [22, 25, 47, 52, 21, 62, 41, 36, 28, 44],
        'income': [21000, 22000, 52000, 73000, 18000, 87000, 45000, 33000, 28000, 84000],
        'gender': ['M', 'F', 'F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'],
        'bought': ['N', 'N', 'Y', 'Y', 'N', 'Y', 'Y', 'N', 'Y', 'Y']}

df = pd.DataFrame(data)

# 将文本数据转换成数值数据
df['gender'] = df['gender'].map({'M': 0, 'F': 1})
df['bought'] = df['bought'].map({'N': 0, 'Y': 1})

# 将数据集分成训练集和测试集
X = df[['age', 'income', 'gender']]
y = df['bought']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 创建决策树模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = model.predict(X_test)

# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: {:.2f}%".format(accuracy*100))
Copier après la connexion

Le résultat de sortie est :

Précision : 50,00 %

Comme vous pouvez le voir, nous utilisons le algorithme d'arbre de décision Les données ont été classées et la précision du modèle a été calculée sur l'ensemble de test. De cette manière, nous pouvons découvrir des modèles dans les données, tels que les facteurs qui affectent les décisions d'achat. Il convient de noter qu'il ne s'agit que d'un exemple simple. Dans les applications réelles, des algorithmes d'apprentissage automatique et des méthodes d'ingénierie de fonctionnalités appropriés doivent être sélectionnés en fonction de problèmes spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Article chaud

Repo: Comment relancer ses coéquipiers
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Combien de temps faut-il pour battre Split Fiction?
3 Il y a quelques semaines By DDD
R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Comment obtenir des graines géantes
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Tags d'article chaud

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Quels sont les avantages et les inconvénients des modèles ? Quels sont les avantages et les inconvénients des modèles ? May 08, 2024 pm 03:51 PM

Quels sont les avantages et les inconvénients des modèles ?

Comment télécharger Deepseek Xiaomi Comment télécharger Deepseek Xiaomi Feb 19, 2025 pm 05:27 PM

Comment télécharger Deepseek Xiaomi

Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs Jul 01, 2024 am 07:22 AM

Google AI annonce Gemini 1.5 Pro et Gemma 2 pour les développeurs

Pour seulement 250$, le directeur technique de Hugging Face vous apprend étape par étape comment peaufiner Llama 3 Pour seulement 250$, le directeur technique de Hugging Face vous apprend étape par étape comment peaufiner Llama 3 May 06, 2024 pm 03:52 PM

Pour seulement 250$, le directeur technique de Hugging Face vous apprend étape par étape comment peaufiner Llama 3

Partagez plusieurs frameworks de projets open source .NET liés à l'IA et au LLM Partagez plusieurs frameworks de projets open source .NET liés à l'IA et au LLM May 06, 2024 pm 04:43 PM

Partagez plusieurs frameworks de projets open source .NET liés à l'IA et au LLM

Un guide complet sur le débogage et l'analyse des fonctions Golang Un guide complet sur le débogage et l'analyse des fonctions Golang May 06, 2024 pm 02:00 PM

Un guide complet sur le débogage et l'analyse des fonctions Golang

Comment lui demandez-vous Deepseek Comment lui demandez-vous Deepseek Feb 19, 2025 pm 04:42 PM

Comment lui demandez-vous Deepseek

Comment enregistrer la fonction d'évaluation Comment enregistrer la fonction d'évaluation May 07, 2024 am 01:09 AM

Comment enregistrer la fonction d'évaluation

See all articles