Tout d’abord, assurez-vous que la bibliothèque Pandas est installée. Sinon, veuillez utiliser la commande suivante pour l'installer :
pip install pandas
import pandas as pd
En utilisant Pandas, vous pouvez facilement lire plusieurs formats de données, notamment CSV, Excel, JSON et HTML, etc. Voici un exemple de lecture d'un fichier CSV :
data = pd.read_csv('data.csv')
La méthode de lecture d'autres formats de données est similaire, comme la lecture de fichiers Excel :
data = pd.read_excel('data.xlsx')
Vous pouvez utiliser le head(). Fonction
pour afficher les premières lignes de données (5 lignes par défaut) : head()
函数查看数据的前几行(默认为5行):
print(data.head())
还可以使用tail()
函数查看数据的后几行,以及info()
和describe()
函数查看数据的统计信息:
print(data.tail()) print(data.info()) print(data.describe())
选择数据的方式有很多,以下是一些常用方法:
选择某列:data['column_name']
选择多列:data[['column1', 'column2']]
选择某行:data.loc[row_index]
选择某个值:data.loc[row_index, 'column_name']
通过条件选择:data[data['column_name'] > value]
在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:
去除空值:data.dropna()
替换空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
数据类型转换:data['column_name'].astype(new_type)
去除重复值:data.drop_duplicates()
Pandas提供了丰富的数据分析功能,以下是一些常用方法:
计算平均值:data['column_name'].mean()
计算中位数:data['column_name'].median()
计算众数:data['column_name'].mode()
计算标准差:data['column_name'].std()
计算相关性:data.corr()
数据分组:data.groupby('column_name')
pip install matplotlib
tail()
pour afficher également les dernières lignes de données. comme fonction info()
et describe()
pour afficher les informations statistiques des données : import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
data['column_name']
Sélectionnez plusieurs colonnes : data[['column1', 'column2']]
data.loc[row_index]
Sélectionnez une valeur : < code>data.loc[row_index, 'column_name']
data[data['column_name'] > value]
5 . Nettoyage des donnéesAvant l'analyse des données, les données doivent généralement être propres. Voici quelques méthodes de nettoyage de données couramment utilisées : data.dropna()
🎜🎜data.fillna(value)
🎜🎜data.rename(columns={'old_name': 'new_name'})
🎜 🎜data['column_name'].astype(new_type)
🎜🎜data.drop_duplicates()
🎜 🎜🎜🎜 6. Analyse des données 🎜🎜Pandas fournit une multitude de fonctions d'analyse des données. Voici quelques méthodes courantes : 🎜. data[ 'column_name'].mean()
🎜🎜data['column_name'].median()
🎜🎜data['column_name'].mode()
🎜🎜data['column_name'].std()
🎜🎜data.corr()
🎜🎜data.groupby('column_name')
🎜🎜🎜🎜7. Pandas facilite la transformation des données en graphiques visuels. Tout d'abord, vous devez installer la bibliothèque Matplotlib :🎜data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()
data.to_csv('output.csv', index=False)
data.to_excel('output.xlsx', index=False)
import pandas as pd data = pd.read_csv('sales_data.csv')
data['sales_amount'] = data['quantity'] * data['price']
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')
data.to_csv('sales_analysis.csv', index=False)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!