Maison > développement back-end > Tutoriel Python > Comment utiliser les pandas pour traiter de grands ensembles de données

Comment utiliser les pandas pour traiter de grands ensembles de données

WBOY
Libérer: 2023-08-05 20:06:13
original
1340 Les gens l'ont consulté

Comment utiliser les pandas pour traiter de grands ensembles de données

Avec l'avènement de l'ère du Big Data, la taille et la complexité des ensembles de données augmentent également. Comment gérer efficacement de grands ensembles de données est une question importante pour les analystes de données et les data scientists. En tant que bibliothèque d'analyse de données Python, pandas fournit des outils de traitement de données flexibles et efficaces qui peuvent nous aider à traiter rapidement de grands ensembles de données. Cet article expliquera comment utiliser les pandas pour traiter de grands ensembles de données et fournira quelques exemples de code.

  1. Installer et importer la bibliothèque pandas

Tout d'abord, nous devons installer la bibliothèque pandas. Vous pouvez utiliser la commande pip pour installer :

pip install pandas
Copier après la connexion

Une fois l'installation terminée, nous devons importer la bibliothèque pandas dans le script Python :

import pandas as pd
Copier après la connexion
  1. Chargement de grands ensembles de données

Avant de traiter de grands ensembles de données, nous devons chargez les données dans des pandas dans la structure de données. Pandas fournit une variété de structures de données, dont la plus couramment utilisée est DataFrame. DataFrame est similaire à une table de base de données ou à une table de données Excel et peut organiser les données en lignes et en colonnes.

Voici un exemple de code pour charger un fichier CSV :

df = pd.read_csv('data.csv')
Copier après la connexion

Ici, nous supposons que notre ensemble de données est un fichier CSV nommé data.csv. Les fichiers CSV peuvent être chargés dans un DataFrame à l'aide de la fonction read_csv().

  1. Afficher les informations sur l'ensemble de données

Avant de commencer à traiter les données, nous pouvons d'abord vérifier certaines informations de base de l'ensemble de données, telles que les dimensions, les noms de colonnes, les types de données, etc. Vous pouvez utiliser le code suivant pour afficher les informations du DataFrame :

# 查看数据维度
print(df.shape)

# 查看列名
print(df.columns)

# 查看数据类型
print(df.dtypes)

# 查看前几行数据
print(df.head())
Copier après la connexion
  1. Nettoyage des données

Les grands ensembles de données contiennent souvent des valeurs manquantes, des valeurs en double, des valeurs aberrantes et d'autres problèmes, et nous devons nettoyer et prétraiter les données. pandas fournit une série de fonctions et de méthodes pour résoudre ces problèmes.

4.1 Gestion des valeurs manquantes

# 检查每列的缺失值数量
print(df.isnull().sum())

# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df = df.fillna(value=0)
Copier après la connexion

4.2 Gestion des valeurs en double

# 检查是否有重复值
print(df.duplicated().sum())

# 删除重复值
df = df.drop_duplicates()
Copier après la connexion

4.3 Gestion des valeurs aberrantes

# 检查是否有异常值
print(df.describe())

# 处理异常值
df = df[df['age'] > 0]
Copier après la connexion
  1. Analyse et exploitation des données

Après avoir nettoyé les données, nous pouvons effectuer l'analyse et l'exploitation des données. pandas fournit une multitude de fonctions et de méthodes pour prendre en charge l'analyse et les opérations de données.

5.1 Filtrage des données

# 筛选出age大于30的数据
df_filtered = df[df['age'] > 30]

# 使用多个条件筛选数据
df_filtered = df[(df['age'] > 30) & (df['gender'] == '男')]
Copier après la connexion

5.2 Tri des données

# 按照age降序排序
df_sorted = df.sort_values('age', ascending=False)

# 按照多个列进行排序
df_sorted = df.sort_values(['age', 'gender'], ascending=[False, True])
Copier après la connexion

5.3 Agrégation de données

# 计算age的平均值
average_age = df['age'].mean()

# 按照gender分组计算age的平均值
average_age_by_gender = df.groupby('gender')['age'].mean()
Copier après la connexion
  1. Visualisation des données

Enfin, nous pouvons utiliser des pandas avec d'autres outils de visualisation de données pour afficher la visualisation des données.

import matplotlib.pyplot as plt

# 绘制柱状图
df['age'].plot(kind='bar')

# 绘制散点图
plt.scatter(df['age'], df['income'])

# 绘制折线图
df.groupby('gender')['age'].mean().plot(kind='line')

# 显示图形
plt.show()
Copier après la connexion

Ce qui précède est une introduction à la façon d'utiliser les pandas pour traiter de grands ensembles de données. En utilisant rationnellement les fonctions et méthodes des pandas, nous pouvons traiter et analyser efficacement de grands ensembles de données. Bien sûr, il ne s'agit que de l'utilisation de base de Pandas. Pandas fournit également des fonctions de traitement et d'analyse de données plus avancées, qui peuvent être apprises et appliquées en fonction de besoins spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal