Comment utiliser Pandas pour l'analyse de données en Python

WBOY
Libérer: 2023-05-16 18:29:26
avant
987 Les gens l'ont consulté

Tout d’abord, assurez-vous que la bibliothèque Pandas est installée. Sinon, veuillez utiliser la commande suivante pour l'installer :

pip install pandas
Copier après la connexion

1. Importez la bibliothèque Pandas

import pandas as pd
Copier après la connexion

2. Lire les données

En utilisant Pandas, vous pouvez facilement lire plusieurs formats de données, notamment CSV, Excel, JSON et HTML, etc. Voici un exemple de lecture d'un fichier CSV :

data = pd.read_csv('data.csv')
Copier après la connexion

La méthode de lecture d'autres formats de données est similaire, comme la lecture de fichiers Excel :

data = pd.read_excel('data.xlsx')
Copier après la connexion

3. Afficher les données

Vous pouvez utiliser le head(). Fonction pour afficher les premières lignes de données (5 lignes par défaut) : head()函数查看数据的前几行(默认为5行):

print(data.head())
Copier après la connexion

还可以使用tail()函数查看数据的后几行,以及info()describe()函数查看数据的统计信息:

print(data.tail())
print(data.info())
print(data.describe())
Copier après la connexion

四. 选择数据

选择数据的方式有很多,以下是一些常用方法:

  • 选择某列:data['column_name']

  • 选择多列:data[['column1', 'column2']]

  • 选择某行:data.loc[row_index]

  • 选择某个值:data.loc[row_index, 'column_name']

  • 通过条件选择:data[data['column_name'] > value]

五. 数据清洗

在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:

  • 去除空值:data.dropna()

  • 替换空值:data.fillna(value)

  • 重命名列名:data.rename(columns={'old_name': 'new_name'})

  • 数据类型转换:data['column_name'].astype(new_type)

  • 去除重复值:data.drop_duplicates()

六. 数据分析

Pandas提供了丰富的数据分析功能,以下是一些常用方法:

  • 计算平均值:data['column_name'].mean()

  • 计算中位数:data['column_name'].median()

  • 计算众数:data['column_name'].mode()

  • 计算标准差:data['column_name'].std()

  • 计算相关性:data.corr()

  • 数据分组:data.groupby('column_name')

    pip install matplotlib
    Copier après la connexion

    Vous pouvez également utiliser la fonction tail() pour afficher également les dernières lignes de données. comme fonction info() et describe() pour afficher les informations statistiques des données :
  • import matplotlib.pyplot as plt
    
    data['column_name'].plot(kind='bar')
    plt.show()
    Copier après la connexion
IV Sélectionner les données

Il existe de nombreuses façons de sélectionner des données. méthodes courantes :

  • Sélectionnez une colonne : data['column_name']

  • Sélectionnez plusieurs colonnes : data[['column1', 'column2']]

  • Sélectionnez une ligne : data.loc[row_index]

  • Sélectionnez une valeur : < code>data.loc[row_index, 'column_name']

  • Sélectionner par condition : data[data['column_name'] > value]

    5 . Nettoyage des données

    Avant l'analyse des données, les données doivent généralement être propres. Voici quelques méthodes de nettoyage de données couramment utilisées :

    • Supprimez les valeurs nulles : data.dropna()🎜🎜
    • 🎜Remplacez valeurs nulles Valeur : data.fillna(value)🎜🎜
    • 🎜Renommer le nom de la colonne : data.rename(columns={'old_name': 'new_name'}) 🎜 🎜
    • 🎜Conversion de type de données : data['column_name'].astype(new_type)🎜🎜
    • 🎜Supprimer les valeurs en double : data.drop_duplicates() 🎜 🎜🎜🎜 6. Analyse des données 🎜🎜Pandas fournit une multitude de fonctions d'analyse des données. Voici quelques méthodes courantes : 🎜
      • 🎜Calculez la moyenne : . data[ 'column_name'].mean()🎜🎜
      • 🎜Calculez la médiane : data['column_name'].median()🎜🎜
      • 🎜Calculez le mode : data['column_name'].mode()🎜🎜
      • 🎜Calculer l'écart type : data['column_name'].std()🎜🎜
      • 🎜 Calculer la corrélation : data.corr()🎜🎜
      • 🎜Regroupement de données : data.groupby('column_name')🎜🎜🎜🎜7. Pandas facilite la transformation des données en graphiques visuels. Tout d'abord, vous devez installer la bibliothèque Matplotlib :🎜
        data[&#39;column_name&#39;].plot(kind=&#39;line&#39;)
        data[&#39;column_name&#39;].plot(kind=&#39;pie&#39;)
        data[&#39;column_name&#39;].plot(kind=&#39;hist&#39;)
        plt.show()
        Copier après la connexion
        🎜Ensuite, utilisez le code suivant pour créer un graphique :🎜
        data.to_csv(&#39;output.csv&#39;, index=False)
        Copier après la connexion
        🎜Les autres types de graphiques visuels incluent les graphiques linéaires, les diagrammes circulaires, les histogrammes, etc. :🎜
        data.to_excel(&#39;output.xlsx&#39;, index=False)
        Copier après la connexion
        🎜Exportez des données. 🎜🎜Les pandas peuvent exporter des données dans différents formats, tels que CSV, Excel, JSON, HTML, etc. Voici un exemple d'exportation de données vers un fichier CSV : 🎜
        import pandas as pd
        
        data = pd.read_csv(&#39;sales_data.csv&#39;)
        Copier après la connexion
        🎜La méthode d'exportation pour les autres formats de données est similaire, comme l'exportation vers un fichier Excel : 🎜
        data[&#39;sales_amount&#39;] = data[&#39;quantity&#39;] * data[&#39;price&#39;]
        Copier après la connexion
        🎜Cas pratique 🎜🎜Nous supposons que nous disposons déjà d'un fichier CSV. copie des données de vente (sales_data.csv ), l'objectif suivant est d'analyser les données. Tout d'abord, nous devons lire les données : 🎜
        max_sales = data.groupby(&#39;product_name&#39;)[&#39;sales_amount&#39;].sum().idxmax()
        print(f&#39;最高销售额的产品是:{max_sales}&#39;)
        Copier après la connexion
        🎜 Ensuite, nous pouvons nettoyer et analyser les données. Par exemple, nous pouvons calculer les ventes de chaque produit : 🎜
        data.to_csv(&#39;sales_analysis.csv&#39;, index=False)
        Copier après la connexion
        🎜 Ensuite, nous pouvons analyser quel produit a les ventes les plus élevées : 🎜rrreee🎜Enfin, nous pouvons exporter les résultats sous forme de fichier CSV : 🎜rrreee

        Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:yisu.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal