Conseils et méthodes pour optimiser l'analyse des données des pandas

PHPz
Libérer: 2024-01-13 14:19:17
original
1162 Les gens l'ont consulté

Conseils et méthodes pour optimiser lanalyse des données des pandas

trucs et astuces pandas pour améliorer l'efficacité de l'analyse des données

Introduction

Dans le domaine de l'analyse de données moderne, pandas est une bibliothèque Python très largement utilisée. Il fournit des structures de données et des outils de traitement de données efficaces, flexibles et riches, rendant l'analyse des données plus simple et plus efficace. Cependant, pour réellement réaliser le potentiel des pandas, il est essentiel de connaître quelques trucs et astuces. Cet article présentera quelques techniques pandas pour améliorer l'efficacité de l'analyse des données et fournira des exemples de code spécifiques.

  1. Utiliser des opérations de vectorisation

Dans l'analyse des données, il est souvent nécessaire d'effectuer divers calculs et opérations sur les données, tels que l'addition, la soustraction, la multiplication et la division, le calcul de moyenne, les statistiques de groupe, etc. L'utilisation d'opérations de vectorisation peut augmenter considérablement la vitesse de traitement des données. De nombreuses fonctions dans les pandas prennent en charge les opérations de vectorisation, telles que l'opération d'addition add, l'opération de soustraction sub, l'opération de multiplication mul, l'opération de division div, etc. Voici un exemple simple :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df['C'] = df['A'] + df['B']  # 使用向量化的加法操作

print(df)
Copier après la connexion

Sortie :

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12
Copier après la connexion
Copier après la connexion
  1. Utiliser des conditions pour sélectionner des données

Lors du traitement des données, il est souvent nécessaire de sélectionner les parties requises dans l'ensemble de données en fonction de certaines conditions. Cette fonction peut être facilement réalisée en utilisant la sélection conditionnelle. Pandas fournit un moyen de sélectionner des données à l'aide de conditions, en utilisant l'indexation booléenne. Voici un exemple :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df_selected = df[df['A'] > 2]  # 选择A列中大于2的行

print(df_selected)
Copier après la connexion

Sortie :

   A  B
2  3  7
3  4  8
Copier après la connexion
  1. Utilisation de tableaux croisés dynamiques pour le regroupement et l'agrégation de données

Les tableaux croisés dynamiques dans les pandas sont un outil très pratique pour le regroupement et l'agrégation de données. Grâce aux tableaux croisés dynamiques, vous pouvez facilement regrouper les données en fonction de colonnes spécifiées et effectuer des statistiques globales sur d'autres colonnes. Voici un exemple :

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'two', 'two', 'one'],
                   'C': [1, 2, 3, 4, 5, 6]})

df_pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum')

print(df_pivot)
Copier après la connexion

Sortie :

B    one  two
A            
bar    7    6
foo    6    8
Copier après la connexion
  1. Utilisez la fonction d'application pour les opérations personnalisées

Parfois, vous devez effectuer des opérations personnalisées sur les données. Dans les pandas, vous pouvez utiliser la fonction apply pour atteindre cet objectif. La fonction apply peut accepter une fonction personnalisée comme paramètre et l'appliquer à chaque ligne ou colonne de l'ensemble de données. Voici un exemple :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

def custom_operation(row):
    return row['A'] + row['B']

df['C'] = df.apply(custom_operation, axis=1)

print(df)
Copier après la connexion

Sortie :

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12
Copier après la connexion
Copier après la connexion

Conclusion

Cet article présente plusieurs trucs et astuces Pandas pour améliorer l'efficacité de l'analyse des données, notamment l'utilisation d'opérations de vectorisation, l'utilisation de conditions pour sélectionner les données et l'utilisation de tableaux croisés dynamiques pour les données. regroupement et agrégation Et utilisez la fonction apply pour les opérations personnalisées. En maîtrisant ces compétences, vous pouvez effectuer le travail d'analyse des données plus efficacement et améliorer l'efficacité du travail. Bien sûr, ce n’est qu’une partie des fonctionnalités des pandas, et de nombreuses autres fonctionnalités puissantes nous attendent. J'espère que cet article pourra inspirer les lecteurs et jouer un rôle plus important dans le travail quotidien d'analyse des données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal