Comment utiliser Pandas pour gérer les valeurs en double dans les données : une analyse complète des méthodes de déduplication-Tutoriel Python-php.cn

Maison

Comment utiliser Pandas pour gérer les valeurs en double dans les données : une analyse complète des méthodes de déduplication

PHPz

Jan 24, 2024 am 10:49 AM

数据处理 pandas 去重

Comment utiliser Pandas pour gérer les valeurs en double dans les données : une analyse complète des méthodes de déduplication

Analyse complète de la méthode de déduplication Pandas : gérez facilement les valeurs en double dans les données, des exemples de code spécifiques sont nécessaires

Introduction :
Dans le processus d'analyse et de traitement des données, il est souvent constaté que les données contiennent des valeurs en double. Ces valeurs en double peuvent induire en erreur les résultats d'analyse ou affecter l'exactitude des données. La déduplication constitue donc une partie importante du traitement des données. En tant que bibliothèque de traitement de données largement utilisée en Python, Pandas fournit une variété de méthodes de déduplication et peut facilement gérer les valeurs en double dans les données. Cet article analysera les méthodes de déduplication couramment utilisées dans Pandas et donnera des exemples de code spécifiques pour aider les lecteurs à mieux comprendre et appliquer ces méthodes.

1. Méthode drop_duplicates
La méthode drop_duplicates est l'une des méthodes de déduplication les plus couramment utilisées dans Pandas. Il supprime les valeurs en double des données en fonction des colonnes ou des lignes spécifiées. L'utilisation spécifique est la suivante :

df.drop_duplicates(subset=None, keep='first', inplace=False)

Copier après la connexion

Parmi eux, df représente l'ensemble de données à dédupliquer, le sous-ensemble est la colonne ou la ligne spécifiée et la valeur par défaut est Aucune, ce qui signifie que toutes les colonnes sont dédupliquées. Le paramètre keep indique quelle valeur répétée conserver. La valeur par défaut est « first », ce qui signifie conserver la première valeur apparaissant. Vous pouvez également choisir « last », ce qui signifie conserver la dernière valeur apparaissante. Le paramètre inplace indique s'il faut modifier l'ensemble de données d'origine. La valeur par défaut est False, ce qui signifie renvoyer un nouvel ensemble de données dédupliqué.

Exemple spécifique :
Supposons que nous ayons un ensemble de données df contenant des valeurs en double :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

print(df)

Copier après la connexion

Les résultats en cours d'exécution sont les suivants :

Copier après la connexion

Nous pouvons utiliser la méthode drop_duplicates pour supprimer les valeurs en double :

df_drop_duplicates = df.drop_duplicates()

print(df_drop_duplicates)

Copier après la connexion

Les résultats en cours d'exécution sont les suivants :

Copier après la connexion

D'après les résultats, nous Comme on peut le voir, la méthode drop_duplicates supprime avec succès les valeurs en double dans l'ensemble de données.

2. Méthode dupliquée
La méthode dupliquée est une autre méthode de déduplication couramment utilisée dans Pandas. Contrairement à la méthode drop_duplicates, la méthode dupliquée renvoie une série booléenne pour déterminer si les éléments de chaque ligne ou colonne sont dupliqués. L'utilisation spécifique est la suivante :

df.duplicated(subset=None, keep='first')

Copier après la connexion

Parmi eux, df représente l'ensemble de données à dupliquer, le sous-ensemble est la colonne ou la ligne spécifiée et la valeur par défaut est Aucune, ce qui signifie que toutes les colonnes sont jugées. La signification du paramètre keep est la même que celle de la méthode drop_duplicates.

Exemple spécifique :
Supposons que nous utilisons toujours l'ensemble de données ci-dessus df, nous pouvons utiliser la méthode dupliquée pour déterminer si chaque ligne est répétée :

df_duplicated = df.duplicated()

print(df_duplicated)

Copier après la connexion

Les résultats en cours sont les suivants :

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

Copier après la connexion

Comme le montrent les résultats , les 0ème et 0ème lignes de la série renvoyées 1 et 2 sont fausses, indiquant que ces lignes ne sont pas répétées ; les lignes 3, 4 et 5 sont vraies, indiquant que ces lignes sont répétées.

3. Scénarios d'application des méthodes drop_duplicates et dupliquées
drop_duplicates et des méthodes dupliquées sont largement utilisées dans le nettoyage et l'analyse des données. Les scénarios d'application courants incluent :

Déduplication des données : supprimez les doublons dans les données en fonction de la valeur des colonnes ou des lignes spécifiées. garantir l’exactitude des données.
Analyse des données : grâce à la déduplication, les échantillons ou observations en double peuvent être supprimés pour garantir l'exactitude des résultats de l'analyse des données.

Exemple spécifique :
Supposons que nous ayons un ensemble de données de ventes df, qui contient des enregistrements de ventes dans plusieurs villes. Nous souhaitons compter le total des ventes dans chaque ville et supprimer les villes en double. Nous pouvons utiliser le code suivant pour y parvenir :

import pandas as pd

df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)

Copier après la connexion

Les résultats en cours sont les suivants :

        City  Sales
0    Beijing   1000
1   Shanghai   2000
2  Guangzhou   3000
       Sales
City        
Beijing  2200
Guangzhou  3000
Shanghai  3500

Copier après la connexion

Comme le montrent les résultats, nous avons d'abord utilisé la méthode drop_duplicates pour supprimer les villes en double, puis nous avons utilisé les méthodes groupby et sum pour calculer les ventes totales de chaque ville.

Conclusion :
Grâce à l'analyse de cet article, nous comprenons les scénarios d'utilisation et d'application des méthodes de déduplication couramment utilisées drop_duplicates et dupliquées dans Pandas. Ces méthodes peuvent nous aider à gérer facilement les valeurs en double dans les données et à garantir l'exactitude de l'analyse et du traitement des données. Dans les applications pratiques, nous pouvons choisir des méthodes appropriées en fonction de problèmes spécifiques et les combiner avec d'autres méthodes Pandas pour le nettoyage et l'analyse des données.

Exemple de code :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 1, 2, 3],
                   'B': ['a', 'b', 'c', 'a', 'b', 'c']})

# 使用drop_duplicates方法去重
df_drop_duplicates = df.drop_duplicates()
print(df_drop_duplicates)

# 使用duplicated方法判断重复值
df_duplicated = df.duplicated()
print(df_duplicated)

# 应用场景示例
df = pd.DataFrame({'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shanghai', 'Beijing'],
                   'Sales': [1000, 2000, 3000, 1500, 1200]})

df_drop_duplicates = df.drop_duplicates(subset='City')
df_total_sales = df.groupby('City')['Sales'].sum()

print(df_drop_duplicates)
print(df_total_sales)

Copier après la connexion

Le code ci-dessus est exécuté dans l'environnement Python et le résultat affichera l'ensemble de données dédupliqués et les statistiques de ventes totales.

Références :

Documentation officielle de Pandas : https://pandas.pydata.org/docs/
"Using Python for Data Analysis" (deuxième édition), auteur : Wes McKinney, People's Posts and Telecommunications Press, année 2019 .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7518

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Résoudre les problèmes courants d'installation de pandas : interprétation et solutions aux erreurs d'installation Feb 19, 2024 am 09:19 AM

Tutoriel d'installation de Pandas : analyse des erreurs d'installation courantes et de leurs solutions, des exemples de code spécifiques sont requis Introduction : Pandas est un puissant outil d'analyse de données largement utilisé dans le nettoyage des données, le traitement des données et la visualisation des données, il est donc très respecté dans le domaine de la science des données. Cependant, en raison de problèmes de configuration de l'environnement et de dépendances, vous pouvez rencontrer des difficultés et des erreurs lors de l'installation de pandas. Cet article vous fournira un didacticiel d'installation de pandas et analysera certaines erreurs d'installation courantes et leurs solutions. 1. Installez les pandas

Conseils pratiques pour lire les fichiers txt à l'aide de pandas Jan 19, 2024 am 09:49 AM

Conseils pratiques pour lire les fichiers txt à l'aide de pandas, des exemples de code spécifiques sont requis Dans l'analyse et le traitement des données, les fichiers txt sont un format de données courant. L'utilisation de pandas pour lire les fichiers txt permet un traitement des données rapide et pratique. Cet article présentera plusieurs techniques pratiques pour vous aider à mieux utiliser les pandas pour lire les fichiers txt, ainsi que des exemples de code spécifiques. Lire des fichiers txt avec des délimiteurs Lorsque vous utilisez pandas pour lire des fichiers txt avec des délimiteurs, vous pouvez utiliser read_c

Révéler la méthode efficace de déduplication des données dans Pandas : conseils pour supprimer rapidement les données en double Jan 24, 2024 am 08:12 AM

Le secret de la méthode de déduplication Pandas : un moyen rapide et efficace de dédupliquer les données, qui nécessite des exemples de code spécifiques. Dans le processus d'analyse et de traitement des données, une duplication des données est souvent rencontrée. Les données en double peuvent induire en erreur les résultats de l'analyse, la déduplication est donc une étape très importante. Pandas, une puissante bibliothèque de traitement de données, fournit une variété de méthodes pour réaliser la déduplication des données. Cet article présentera certaines méthodes de déduplication couramment utilisées et joindra des exemples de code spécifiques. Le cas le plus courant de déduplication basée sur une seule colonne dépend de la duplication ou non de la valeur d'une certaine colonne.

Tutoriel d'installation simple de pandas : conseils détaillés sur la façon d'installer des pandas sur différents systèmes d'exploitation Feb 21, 2024 pm 06:00 PM

Tutoriel d'installation simple de Pandas : des conseils détaillés sur la façon d'installer Pandas sur différents systèmes d'exploitation, des exemples de code spécifiques sont nécessaires. Alors que la demande de traitement et d'analyse de données continue d'augmenter, Pandas est devenu l'un des outils préférés de nombreux scientifiques et analystes de données. pandas est une puissante bibliothèque de traitement et d'analyse de données qui peut facilement traiter et analyser de grandes quantités de données structurées. Cet article détaillera comment installer des pandas sur différents systèmes d'exploitation et fournira des exemples de code spécifiques. Installer sur le système d'exploitation Windows

Comment Golang améliore-t-il l'efficacité du traitement des données ? May 08, 2024 pm 06:03 PM

Golang améliore l'efficacité du traitement des données grâce à la concurrence, à une gestion efficace de la mémoire, à des structures de données natives et à de riches bibliothèques tierces. Les avantages spécifiques incluent : Traitement parallèle : les coroutines prennent en charge l'exécution de plusieurs tâches en même temps. Gestion efficace de la mémoire : le mécanisme de récupération de place gère automatiquement la mémoire. Structures de données efficaces : les structures de données telles que les tranches, les cartes et les canaux accèdent et traitent rapidement les données. Bibliothèques tierces : couvrant diverses bibliothèques de traitement de données telles que fasthttp et x/text.

FAQ pour les pandas lisant des fichiers txt Jan 19, 2024 am 09:19 AM

Pandas est un outil d'analyse de données pour Python, particulièrement adapté au nettoyage, au traitement et à l'analyse des données. Au cours du processus d'analyse des données, nous devons souvent lire des fichiers de données dans différents formats, tels que des fichiers Txt. Cependant, certains problèmes seront rencontrés lors de l'opération spécifique. Cet article présentera les réponses aux questions courantes sur la lecture de fichiers txt avec des pandas et fournira des exemples de code correspondants. Question 1 : Comment lire le fichier txt ? Les fichiers txt peuvent être lus à l'aide de la fonction read_csv() de pandas. Ceci est dû au fait

Utilisez Redis pour améliorer l'efficacité du traitement des données des applications Laravel Mar 06, 2024 pm 03:45 PM

Utilisez Redis pour améliorer l'efficacité du traitement des données des applications Laravel Avec le développement continu des applications Internet, l'efficacité du traitement des données est devenue l'une des priorités des développeurs. Lors du développement d'applications basées sur le framework Laravel, nous pouvons utiliser Redis pour améliorer l'efficacité du traitement des données et obtenir un accès et une mise en cache rapides des données. Cet article expliquera comment utiliser Redis pour le traitement des données dans les applications Laravel et fournira des exemples de code spécifiques. 1. Introduction à Redis Redis est une mémoire de données haute performance

Guide d'installation pour PythonPandas : facile à comprendre et à utiliser Jan 24, 2024 am 09:39 AM

Guide d'installation de PythonPandas simple et facile à comprendre PythonPandas est une puissante bibliothèque de manipulation et d'analyse de données. Elle fournit des structures de données et des outils d'analyse de données flexibles et faciles à utiliser, et constitue l'un des outils importants pour l'analyse des données Python. Cet article vous fournira un guide d'installation de PythonPandas simple et facile à comprendre pour vous aider à installer rapidement Pandas, et joindra des exemples de code spécifiques pour vous permettre de démarrer facilement. Installer Python Avant d'installer Pandas, vous devez d'abord

See all articles