Table des matières
objet est également applicable aux séries) " >1. Afficher les données (la méthode de visualisation de l' objet est également applicable aux séries)
2. Sélectionnez des objets
3. Valeur de réglage (affectation)
4. Traitement des valeurs manquantes
五、合并
分组(groupby)" >六、分组(groupby)
七、Categorical按某一列重新编码分类
八、相关操作
九、时间序列
十、画图(plot)
十一、导入和导出文件
Maison développement back-end Tutoriel Python Opérations de base de DataFrame introduites par la bibliothèque pandas

Opérations de base de DataFrame introduites par la bibliothèque pandas

Apr 04, 2017 pm 01:38 PM
python

Comment supprimer liste les caractères creux ?
La méthode la plus simple : new_list = [ x for x in li if x != '' ]


Aujourd'hui, c'est le 1er mai.

Cette partie étudie principalement les opérations de base chez les pandas basées sur les deux structures de données précédentes.

设有DataFrame结果的数据a如下所示:    
       a  b  c
one    4  1  1
two    6  2  0
three  6  1  6
Copier après la connexion

1. Afficher les données (la méthode de visualisation de l' objet est également applicable aux séries)

1. de DataFrame Ou les xx dernières lignes
a=DataFrame(data);
a.head(6) signifie afficher les 6 premières lignes de données s'il n'y a aucun paramètre dans. head(), il sera affiché.
a.tail(6) signifie afficher les 6 dernières lignes de données. S'il n'y a pas de paramètres dans tail(), toutes les données seront affichées.

2. Afficher l'index, les colonnes et les valeurs de DataFrame
a.index; a.columns ​​et ensuite

3.describe ()FonctionPour un résumé statistique rapide des données
a.describe() effectue des statistiques sur chaque colonne de données, y compris le nombre, la moyenne, la norme, chaque quantile, etc. .

4. Transposer les données
a.T

Trier les axes
a.tri _index(axis=1,ascending=False);
où axis=1 signifie trier toutes les colonnes de , et les nombres suivants se déplaceront également en conséquence. Le suivant ascending=False signifie trier par ordre décroissant, et la valeur par défaut est l'ordre croissant lorsque le paramètre est manquant.

6. Triez les valeurs dans le DataFrame
a.sort(columns='x')
C'est-à-dire, triez la colonne x dans a de petit à grand . Notez qu'il ne s'agit que de la colonne x et que le tri par axe ci-dessus fonctionnera sur toutes les colonnes.

2. Sélectionnez des objets

1. Sélectionnez les données de colonnes et de lignes spécifiques
a['x'] Ensuite, la colonne dont les colonnes sont x sera renvoyé, Notez que cette méthode ne peut renvoyer qu'une seule colonne à la fois. a.x signifie la même chose que a['x'].

Obtenez les données des lignes et sélectionnez
en découpant []. Par exemple : a[0:3] renverra les données des trois premières lignes.

2.loc sélectionne les données via des balises
a.loc['one'] indiquera par défaut que la ligne avec comportement 'one' est sélectionnée ;

a.loc[:,['a','b'] ] signifie sélectionner toutes les lignes et colonnes dont les colonnes sont a et b

a.loc[['one'; ,'two'],['a','b']] signifie sélectionner les deux lignes 'one' et 'two' et les colonnes dont les colonnes sont a et b

a.loc['one; ' ,'a'] a le même effet que a.loc[['one'],['a']], mais le premier affiche uniquement la valeur correspondante, tandis que le second affiche les étiquettes de ligne et de colonne correspondantes.

3.iloc sélectionne les données directement par emplacement
Ceci est similaire à la sélection par étiquette
a.iloc[1:2,1:2] sera affiché Les données dans la première ligne et la première colonne (la valeur après la tranche ne peut pas être obtenue)

a.iloc[1:2] signifie que lorsqu'il n'y a pas de valeur dans la colonne suivante, la ligne la position est sélectionnée à 1 par défaut. Les données ;

a.iloc[[0,2],[1,2]] signifient que vous pouvez sélectionner librement les données correspondant à la position de la ligne et de la colonne. .

4. Utilisez les conditions pour sélectionner
Utilisez une colonne séparée pour sélectionner les données
a[a.c>0] signifie sélectionner la colonne c Données supérieur à 0

Utilisez où sélectionner les données
a[a>0] Le tableau sélectionne directement toutes les données supérieures à 0 dans a

Utilisez isin() pour sélectionner des lignes spécifiques contenant des valeurs spécifiques dans la colonne
a1=a.copy()
a1[a1['one'].isin(['2','3']) ] Le tableau affiche toutes les lignes qui remplissent la condition : la valeur dans la première colonne contient "2", "3".

3. Valeur de réglage (affectation)

L'opération d'affectation peut être directement attribuée en fonction de l'opération de sélection ci-dessus.
Exemple a.loc[:,['a','c']]=9 signifie définir les valeurs de toutes les lignes des colonnes a et c sur 9
a.iloc[:,[1, 3] ]=9 signifie également définir les valeurs de toutes les lignes des colonnes a et c sur 9

En même temps, vous pouvez toujours utiliser des conditions pour attribuer des valeurs directement
a[ a>0]=-a signifie définir a dans Tous les nombres supérieurs à 0 sont convertis en valeurs négatives

4. Traitement des valeurs manquantes

Dans les pandas, utilisez np.nan pour remplacer valeurs manquantes Ces valeurs ne seront pas incluses dans le calcul par défaut. La méthode

1.reindex()
est utilisée pour modifier/ajouter/supprimer l'index sur l'axe spécifié , ce A une copie des données originales sera restituée.
a.reindex(index=list(a.index)+['five'],columns=list(a.columns)+['d'])

a.reindex(index=['one','five'],columns=list(a.columns)+['d'])

即用index=[]表示对index进行操作,columns表对列进行操作。

2.对缺失值进行填充
a.fillna(value=x)
表示用值为x的数来对缺失值进行填充

3.去掉包含缺失值的行
a.dropna(how='any')
表示去掉所有包含缺失值的行

五、合并

1.contact
contact(a1,axis=0/1,keys=['xx','xx','xx',...]),其中a1表示要进行进行连接的列表数据,axis=1时表横着对数据进行连接。axis=0或不指定时,表将数据竖着进行连接。a1中要连接的数据有几个则对应几个keys,设置keys是为了在数据连接以后区分每一个原始a1中的数据。

例:a1=[b['a'],b['c']]
result=pd.concat(a1,axis=1,keys=['1','2'])

2.Append 将一行或多行数据连接到一个DataFrame上
a.append(a[2:],ignore_index=True)
表示将a中的第三行以后的数据全部添加到a中,若不指定ignore_index参数,则会把添加的数据的index保留下来,若ignore_index=Ture则会对所有的行重新自动建立索引。

3.merge类似于SQL中的join
设a1,a2为两个dataframe,二者中存在相同的键值,两个对象连接的方式有下面几种:
(1)内连接,pd.merge(a1, a2, on='key')
(2)左连接,pd.merge(a1, a2, on='key', how='left')
(3)右连接,pd.merge(a1, a2, on='key', how='right')
(4)外连接, pd.merge(a1, a2, on='key', how='outer')
至于四者的具体差别,具体学习参考sql中相应的语法。

六、分组(groupby)

用pd.date_range函数生成连续指定天数的的日期
pd.date_range('20000101',periods=10)

def shuju():
    data={
        'date':pd.date_range('20000101',periods=10),
        'gender':np.random.randint(0,2,size=10),
        'height':np.random.randint(40,50,size=10),
        'weight':np.random.randint(150,180,size=10)
    }
a=DataFrame(data)
print(a)
        date  gender  height  weight
0 2000-01-01       0      47     165
1 2000-01-02       0      46     179
2 2000-01-03       1      48     172
3 2000-01-04       0      45     173
4 2000-01-05       1      47     151
5 2000-01-06       0      45     172
6 2000-01-07       0      48     167
7 2000-01-08       0      45     157
8 2000-01-09       1      42     157
9 2000-01-10       1      42     164

用a.groupby('gender').sum()得到的结果为:  #注意在python中groupby(''xx)后要加sum(),不然显示
不了数据对象。
gender     height  weight               
0           256     989
1           170     643
Copier après la connexion

此外用a.groupby('gender').size()可以对各个gender下的数目进行计数。

所以可以看到groupby的作用相当于:
按gender对gender进行分类,对应为数字的列会自动求和,而为字符串类型的列则不显示;当然也可以同时groupby(['x1','x2',...])多个字段,其作用与上面类似。

七、Categorical按某一列重新编码分类

如六中要对a中的gender进行重新编码分类,将对应的0,1转化为male,female,过程如下:

a['gender1']=a['gender'].astype('category')
a['gender1'].cat.categories=['male','female']  #即将0,1先转化为category类型再进行编码。

 print(a)得到的结果为:
      date    gender  height  weight gender1
0 2000-01-01       1      40     163  female
1 2000-01-02       0      44     177    male
2 2000-01-03       1      40     167  female
3 2000-01-04       0      41     161    male
4 2000-01-05       0      48     177    male
5 2000-01-06       1      46     179  female
6 2000-01-07       1      42     154  female
7 2000-01-08       1      43     170  female
8 2000-01-09       0      46     158    male
9 2000-01-10       1      44     168  female
Copier après la connexion

所以可以看出重新编码后的编码会自动增加到dataframe最后作为一列。

八、相关操作

描述性统计:
1.a.mean()  默认对每一列的数据求平均值;若加上参数a.mean(1)则对每一行求平均值;

2.统计某一列x中各个值出现的次数:a['x'].value_counts();

3.对数据应用函数
a.apply(lambda x:x.max()-x.min())
表示返回所有列中最大值-最小值的差。

4.字符串相关操作
a['gender1'].str.lower()  将gender1中所有的英文大写转化为小写,注意dataframe没有str属性,只有series有,所以要选取a中的gender1字段。

九、时间序列

在六中用pd.date_range('xxxx',periods=xx,freq='D/M/Y....')函数生成连续指定天数的的日期列表。
例如pd.date_range('20000101',periods=10),其中periods表示持续频数;
pd.date_range('20000201','20000210',freq='D')也可以不指定频数,只指定起始日期。

此外如果不指定freq,则默认从起始日期开始,频率为day。其他频率表示如下:

Opérations de base de DataFrame introduites par la bibliothèque pandas

1.png

十、画图(plot)

在pycharm中首先要:import matplotlib.pyplot as plt
a=Series(np.random.randn(1000),index=pd.date_range('20100101',periods=1000))
b=a.cumsum()
b.plot()
plt.show()    #最后一定要加这个plt.show(),不然不会显示出图来。
Copier après la connexion

Opérations de base de DataFrame introduites par la bibliothèque pandas

2.PNG


也可以使用下面的代码来生成多条时间序列图:

a=DataFrame(np.random.randn(1000,4),index=pd.date_range('20100101',periods=1000),columns=list('ABCD'))
b=a.cumsum()
b.plot()
plt.show()
Copier après la connexion

Opérations de base de DataFrame introduites par la bibliothèque pandas

3.png

十一、导入和导出文件

写入和读取excel文件
虽然写入excel表时有两种写入xls和csv,但建议少使用csv,不然在表中调整数据格式时,保存时一直询问你是否保存新格式,很麻烦。而在读取数据时,如果指定了哪一张sheet,则在pycharm又会出现格式不对齐。

还有将数据写入表格中时,excel会自动给你在表格最前面增加一个字段,对数据行进行编号。

a.to_excel(r'C:\\Users\\guohuaiqi\\Desktop\\2.xls',sheet_name='Sheet1')    

a=pd.read_excel(r'C:\\Users\\guohuaiqi\\Desktop\\2.xls','Sheet1',na_values=['NA'])

注意sheet_name后面的Sheet1中的首字母大写;读取数据时,可以指定读取哪一张表中的数据,而
且对缺失值补上NA。

最后再附上写入和读取csv格式的代码:
a.to_csv(r'C:\\Users\\guohuaiqi\\Desktop\\1.csv',sheet_name='Sheet1')
a=pd.read_csv(r'C:\\Users\\guohuaiqi\\Desktop\\1.csv',na_values=['NA'])
Copier après la connexion

       

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Vous avez un jeu croisé?
1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP et Python: exemples de code et comparaison PHP et Python: exemples de code et comparaison Apr 15, 2025 am 12:07 AM

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Python vs JavaScript: communauté, bibliothèques et ressources Python vs JavaScript: communauté, bibliothèques et ressources Apr 15, 2025 am 12:16 AM

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Comment est la prise en charge du GPU pour Pytorch sur Centos Comment est la prise en charge du GPU pour Pytorch sur Centos Apr 14, 2025 pm 06:48 PM

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Explication détaillée du principe docker Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Miniopen Centos Compatibilité Miniopen Centos Compatibilité Apr 14, 2025 pm 05:45 PM

Minio Object Storage: Déploiement haute performance dans le système Centos System Minio est un système de stockage d'objets distribué haute performance développé sur la base du langage Go, compatible avec Amazons3. Il prend en charge une variété de langages clients, notamment Java, Python, JavaScript et GO. Cet article introduira brièvement l'installation et la compatibilité de Minio sur les systèmes CentOS. Compatibilité de la version CentOS Minio a été vérifiée sur plusieurs versions CentOS, y compris, mais sans s'y limiter: CentOS7.9: fournit un guide d'installation complet couvrant la configuration du cluster, la préparation de l'environnement, les paramètres de fichiers de configuration, le partitionnement du disque et la mini

Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Apr 14, 2025 pm 06:36 PM

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

Comment choisir la version Pytorch sur Centos Comment choisir la version Pytorch sur Centos Apr 14, 2025 pm 06:51 PM

Lors de l'installation de Pytorch sur le système CentOS, vous devez sélectionner soigneusement la version appropriée et considérer les facteurs clés suivants: 1. Compatibilité de l'environnement du système: Système d'exploitation: Il est recommandé d'utiliser CentOS7 ou plus. CUDA et CUDNN: La version Pytorch et la version CUDA sont étroitement liées. Par exemple, Pytorch1.9.0 nécessite CUDA11.1, tandis que Pytorch2.0.1 nécessite CUDA11.3. La version CUDNN doit également correspondre à la version CUDA. Avant de sélectionner la version Pytorch, assurez-vous de confirmer que des versions compatibles CUDA et CUDNN ont été installées. Version Python: branche officielle de Pytorch

Python: automatisation, script et gestion des tâches Python: automatisation, script et gestion des tâches Apr 16, 2025 am 12:14 AM

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.

See all articles