Artefact de traitement des données Pandas : maîtrisez la méthode de duplication et améliorez l'efficacité de l'analyse des données
[Introduction]
Dans le processus d'analyse des données, nous rencontrons souvent des situations où les données contiennent des valeurs en double. Ces valeurs en double affecteront non seulement l'exactitude des résultats de l'analyse des données, mais réduiront également l'efficacité de l'analyse. Afin de résoudre ce problème, Pandas propose une multitude de méthodes de déduplication qui peuvent nous aider à gérer efficacement les valeurs en double. Cet article présentera plusieurs méthodes de déduplication couramment utilisées et fournira des exemples de code spécifiques, dans l'espoir d'aider chacun à mieux maîtriser les capacités de traitement des données de Pandas et à améliorer l'efficacité de l'analyse des données.
【Général】
Cet article se concentrera sur les aspects suivants :
【Texte 】
drop_duplicates()
dans Pandas. Voici un exemple : drop_duplicates()
方法。下面是一个示例:import pandas as pd # 创建数据集 data = {'A': [1, 2, 3, 4, 1], 'B': [5, 6, 7, 8, 5]} df = pd.DataFrame(data) # 去除重复行 df.drop_duplicates(inplace=True) print(df)
运行结果如下所示:
A B 0 1 5 1 2 6 2 3 7 3 4 8
T
属性和drop_duplicates()
方法。下面是一个示例:import pandas as pd # 创建数据集 data = {'A': [1, 2, 3, 4, 5], 'B': [5, 6, 7, 8, 9], 'C': [1, 2, 3, 4, 5]} df = pd.DataFrame(data) # 去除重复列 df = df.T.drop_duplicates().T print(df)
运行结果如下所示:
A B 0 1 5 1 2 6 2 3 7 3 4 8 4 5 9
duplicated()
方法和~
运算符来实现。下面是一个示例:import pandas as pd # 创建数据集 data = {'A': [1, 2, 3, 1, 2], 'B': [5, 6, 7, 8, 9]} df = pd.DataFrame(data) # 基于列A的值进行去重 df = df[~df['A'].duplicated()] print(df)
运行结果如下所示:
A B 0 1 5 1 2 6 2 3 7
drop_duplicates()
方法的subset
参数,可以实现基于条件的去重操作。下面是一个示例:import pandas as pd # 创建数据集 data = {'A': [1, 2, 3, 1, 2], 'B': [5, 6, 7, 8, 9]} df = pd.DataFrame(data) # 基于列B的值进行去重,但只保留A列值为1的行 df = df.drop_duplicates(subset=['B'], keep='first') print(df)
运行结果如下所示:
A B 0 1 5 1 2 6
duplicated()
和drop_duplicates()
方法的keep
import pandas as pd # 创建数据集 data = {'A': [1, 2, 3, 4, 5]} df = pd.DataFrame(data, index=[1, 1, 2, 2, 3]) # 基于索引进行去重,保留最后一次出现的数值 df = df[~df.index.duplicated(keep='last')] print(df)
A 1 2 2 4 3 5
Parfois, nous pouvons rencontrer une situation où l'ensemble de données contient les mêmes colonnes. Afin de supprimer ces colonnes en double, vous pouvez utiliser l'attribut T
et la méthode drop_duplicates()
dans Pandas. Voici un exemple :
duplicated()
et l'opérateur ~
dans Pandas. Voici un exemple : 🎜🎜rrreee🎜Le résultat d'exécution est le suivant : 🎜rrreeesubset
de la méthode drop_duplicates()
, qui peut implémenter des opérations de déduplication basées sur des conditions. Voici un exemple : 🎜🎜rrreee🎜Le résultat d'exécution est le suivant : 🎜rrreeekeep
des méthodes duplicate()
et drop_duplicates()
, qui peuvent implémenter des opérations de déduplication basées sur des index. Voici un exemple : 🎜🎜rrreee🎜Les résultats d'exécution sont les suivants : 🎜rrreee🎜[Conclusion]🎜À travers l'introduction et les exemples de code de cet article, nous pouvons voir que Pandas fournit une multitude de méthodes de déduplication qui peuvent nous aider à le traiter. Dupliquer efficacement les valeurs dans les données. La maîtrise de ces méthodes peut améliorer l'efficacité du processus d'analyse des données et obtenir des résultats d'analyse précis. J'espère que cet article sera utile à tout le monde pour découvrir les capacités de traitement des données de Pandas. 🎜Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!