Maison > développement back-end > Tutoriel Python > Outil d'analyse de données Pandas : apprenez les techniques de duplication et améliorez l'efficacité du traitement des données

Outil d'analyse de données Pandas : apprenez les techniques de duplication et améliorez l'efficacité du traitement des données

WBOY
Libérer: 2024-01-24 08:09:14
original
1063 Les gens l'ont consulté

Outil danalyse de données Pandas : apprenez les techniques de duplication et améliorez lefficacité du traitement des données

Artefact de traitement des données Pandas : maîtrisez la méthode de duplication et améliorez l'efficacité de l'analyse des données

[Introduction]
Dans le processus d'analyse des données, nous rencontrons souvent des situations où les données contiennent des valeurs en double. Ces valeurs en double affecteront non seulement l'exactitude des résultats de l'analyse des données, mais réduiront également l'efficacité de l'analyse. Afin de résoudre ce problème, Pandas propose une multitude de méthodes de déduplication qui peuvent nous aider à gérer efficacement les valeurs en double. Cet article présentera plusieurs méthodes de déduplication couramment utilisées et fournira des exemples de code spécifiques, dans l'espoir d'aider chacun à mieux maîtriser les capacités de traitement des données de Pandas et à améliorer l'efficacité de l'analyse des données.

【Général】
Cet article se concentrera sur les aspects suivants :

  1. Suppression des lignes en double
  2. Suppression des colonnes en double
  3. Déduplication basée sur les valeurs des colonnes
  4. Déduplication basée sur les conditions
  5. Déduplication basée sur l'index

【Texte 】

  1. Supprimer les lignes en double
    Au cours du processus d'analyse des données, nous rencontrons souvent des situations où les mêmes lignes sont incluses dans l'ensemble de données. Afin de supprimer ces lignes en double, vous pouvez utiliser la méthode drop_duplicates() dans Pandas. Voici un exemple : drop_duplicates()方法。下面是一个示例:
import pandas as pd

# 创建数据集
data = {'A': [1, 2, 3, 4, 1],
        'B': [5, 6, 7, 8, 5]}
df = pd.DataFrame(data)

# 去除重复行
df.drop_duplicates(inplace=True)

print(df)
Copier après la connexion

运行结果如下所示:

   A  B
0  1  5
1  2  6
2  3  7
3  4  8
Copier après la connexion
  1. 去除重复列
    有时候,我们可能会遇到数据集中包含相同列的情况。为了去除这些重复列,可以使用Pandas中的T属性和drop_duplicates()方法。下面是一个示例:
import pandas as pd

# 创建数据集
data = {'A': [1, 2, 3, 4, 5],
        'B': [5, 6, 7, 8, 9],
        'C': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# 去除重复列
df = df.T.drop_duplicates().T

print(df)
Copier après la connexion

运行结果如下所示:

   A  B
0  1  5
1  2  6
2  3  7
3  4  8
4  5  9
Copier après la connexion
  1. 基于列值的去重
    有时候,我们需要根据某一列的值来进行去重操作。可以使用Pandas中的duplicated()方法和~运算符来实现。下面是一个示例:
import pandas as pd

# 创建数据集
data = {'A': [1, 2, 3, 1, 2],
        'B': [5, 6, 7, 8, 9]}
df = pd.DataFrame(data)

# 基于列A的值进行去重
df = df[~df['A'].duplicated()]

print(df)
Copier après la connexion

运行结果如下所示:

   A  B
0  1  5
1  2  6
2  3  7
Copier après la connexion
  1. 基于条件的去重
    有时候,在进行数据分析时,我们可能需要根据某些条件对数据进行去重操作。Pandas提供了drop_duplicates()方法的subset参数,可以实现基于条件的去重操作。下面是一个示例:
import pandas as pd

# 创建数据集
data = {'A': [1, 2, 3, 1, 2],
        'B': [5, 6, 7, 8, 9]}
df = pd.DataFrame(data)

# 基于列B的值进行去重,但只保留A列值为1的行
df = df.drop_duplicates(subset=['B'], keep='first')

print(df)
Copier après la connexion

运行结果如下所示:

   A  B
0  1  5
1  2  6
Copier après la connexion
  1. 基于索引的去重
    有时候,在对数据进行处理时,我们可能会遇到索引重复的情况。Pandas提供了duplicated()drop_duplicates()方法的keep
  2. import pandas as pd
    
    # 创建数据集
    data = {'A': [1, 2, 3, 4, 5]}
    df = pd.DataFrame(data, index=[1, 1, 2, 2, 3])
    
    # 基于索引进行去重,保留最后一次出现的数值
    df = df[~df.index.duplicated(keep='last')]
    
    print(df)
    Copier après la connexion
Le résultat courant est le suivant :

   A
1  2
2  4
3  5
Copier après la connexion
    Supprimer les colonnes en double

    Parfois, nous pouvons rencontrer une situation où l'ensemble de données contient les mêmes colonnes. Afin de supprimer ces colonnes en double, vous pouvez utiliser l'attribut T et la méthode drop_duplicates() dans Pandas. Voici un exemple :

    rrreee🎜Le résultat en cours d'exécution est le suivant : 🎜rrreee
      🎜Déduplication basée sur la valeur de la colonne🎜Parfois, nous devons effectuer une déduplication basée sur la valeur d'une certaine colonne. Ceci peut être réalisé en utilisant la méthode duplicated() et l'opérateur ~ dans Pandas. Voici un exemple : 🎜🎜rrreee🎜Le résultat d'exécution est le suivant : 🎜rrreee
        🎜Déduplication basée sur les conditions🎜Parfois, lors de l'analyse des données, nous pouvons avoir besoin d'analyser les données en fonction de certaines conditions. Effectuez des opérations de déduplication. Pandas fournit le paramètre subset de la méthode drop_duplicates(), qui peut implémenter des opérations de déduplication basées sur des conditions. Voici un exemple : 🎜🎜rrreee🎜Le résultat d'exécution est le suivant : 🎜rrreee
          🎜Déduplication basée sur les index🎜Parfois, lors du traitement des données, nous pouvons rencontrer des index en double Condition. Pandas fournit les paramètres keep des méthodes duplicate() et drop_duplicates(), qui peuvent implémenter des opérations de déduplication basées sur des index. Voici un exemple : 🎜🎜rrreee🎜Les résultats d'exécution sont les suivants : 🎜rrreee🎜[Conclusion]🎜À travers l'introduction et les exemples de code de cet article, nous pouvons voir que Pandas fournit une multitude de méthodes de déduplication qui peuvent nous aider à le traiter. Dupliquer efficacement les valeurs dans les données. La maîtrise de ces méthodes peut améliorer l'efficacité du processus d'analyse des données et obtenir des résultats d'analyse précis. J'espère que cet article sera utile à tout le monde pour découvrir les capacités de traitement des données de Pandas. 🎜

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal