Comment fusionner deux fichiers CSV par colonnes spécifiques à l'aide de Pandas en Python ?-Tutoriel Python-php.cn

Table des matières

Qu'est-ce que la bibliothèque Pandas ?

Étapes pour fusionner deux fichiers CSV par colonnes spécifiques en Python

Étape 1 : Importer la bibliothèque Pandas

Étape 2 : Lire le fichier CSV

Étape 3 : Fusionner les fichiers CSV

Étape 4 : Gérer les valeurs manquantes (le cas échéant)

Exemple 1 : Utilisation de la fonction Merge()

示例

输出

示例 2：使用 Join() 函数

结论

Maison

développement back-end

Tutoriel Python

Comment fusionner deux fichiers CSV par colonnes spécifiques à l'aide de Pandas en Python ?

PHPz

Sep 08, 2023 pm 02:01 PM

python 合并 pandas

Comment fusionner deux fichiers CSV par colonnes spécifiques à laide de Pandas en Python ?

Les fichiers CSV (Comma Separated Values) sont largement utilisés pour stocker et échanger des données dans un format simple. Dans de nombreuses tâches de traitement de données, il est nécessaire de fusionner deux ou plusieurs fichiers CSV en fonction de colonnes spécifiques. Heureusement, cela peut être facilement réalisé en utilisant la bibliothèque Pandas en Python.

Dans cet article, nous apprendrons comment fusionner deux fichiers CSV par colonnes spécifiques à l'aide de Pandas en Python.

Qu'est-ce que la bibliothèque Pandas ?

Pandas est une bibliothèque open source pour le contrôle et l'inspection des messages Python. Il fournit des outils pour travailler avec des données structurées (telles que des données tabulaires, des séries chronologiques et multidimensionnelles) et des structures de données hautes performances. Pandas est largement utilisé dans la finance, la science des données, l'apprentissage automatique et d'autres domaines nécessitant une manipulation de données.

Étapes pour fusionner deux fichiers CSV par colonnes spécifiques en Python

Voici les étapes complètes pour fusionner deux fichiers CSV par colonnes spécifiques en Python à l'aide de la bibliothèque Pandas -

Étape 1 : Importer la bibliothèque Pandas

La première étape pour fusionner deux fichiers CSV consiste à importer la bibliothèque pandas. Pandas est une puissante bibliothèque d'analyse de données Python. Il fournit des structures de données pour un stockage et une manipulation efficaces de grands ensembles de données. Pour utiliser Pandas, nous devons d'abord l'importer dans un programme Python. Nous pouvons le faire en utilisant la commande suivante -

import pandas as pd

Copier après la connexion

Étape 2 : Lire le fichier CSV

Notre prochaine étape consiste à lire les deux fichiers CSV que nous souhaitons fusionner. Nous pouvons lire le fichier CSV dans un Pandas DataFrame en utilisant la fonction read_csv() de Pandas. Nous devons fournir le chemin du fichier ou l'URL du fichier CSV comme argument de la fonction read_csv(). Par exemple -

df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

Copier après la connexion

Étape 3 : Fusionner les fichiers CSV

Après avoir lu les fichiers CSV dans Pandas DataFrames, il est maintenant temps de les fusionner en fonction de colonnes spécifiques à l'aide de la fonction merge(). La fonction merge() prend deux DataFrames en entrée et les fusionne en fonction de colonnes communes. C'est la syntaxe de base -

merged_df = pd.merge(df1, df2, on='column_name')

Copier après la connexion

Dans cet exemple, merged_df est un nouveau DataFrame contenant les données fusionnées de df1 et df2. Le paramètre on spécifie le nom de la colonne commune qui fusionne les deux DataFrames.

Par exemple, supposons que nous ayons deux fichiers CSV sales.csv et customer.csv. Les deux fichiers contiennent une colonne nommée CustomerID. Nous souhaitons fusionner deux fichiers en fonction de la colonne CustomerID. Nous pouvons le faire -

sales = pd.read_csv('sales.csv')
customers = pd.read_csv('customers.csv')
merged_df = pd.merge(sales, customers, on='CustomerID')

Copier après la connexion

Étape 4 : Gérer les valeurs manquantes (le cas échéant)

Lors de la fusion de deux fichiers CSV basés sur des colonnes spécifiques, il peut y avoir des valeurs manquantes dans le DataFrame fusionné. Ces valeurs manquantes peuvent survenir s'il n'y a pas de valeur correspondante dans la colonne correspondante de l'un des fichiers CSV.

Pour gérer les valeurs manquantes, nous pouvons utiliser la fonction fillna() de Pandas pour les remplacer par des valeurs par défaut ou calculées. Par exemple, nous pouvons utiliser le code suivant pour remplacer les valeurs manquantes par la chaîne "Inconnu" -

merged_df.fillna('Unknown', inplace=True)

Copier après la connexion

Dans cet exemple, nous utilisons la fonction fillna() pour remplacer les valeurs manquantes dans le DataFrame fusionné par la chaîne "Unknown". Nous avons également spécifié le paramètre inplace sur True, ce qui signifie que le DataFrame d'origine sera modifié plutôt que de créer un nouveau DataFrame.

Exemple 1 : Utilisation de la fonction Merge()

Dans cet exemple, nous utiliserons la fonction merge() de Pandas pour fusionner deux fichiers CSV en fonction de colonnes spécifiques.

CSV Files

Copier après la connexion

Supposons que nous ayons deux fichiers CSV : employés.csv et Départements.csv. Le fichier Employees.csv contient les données suivantes -

ID d'employé	Nom	ID du département	Salaire
1	Jean	1	50000
2	Sarah	2	60000
3	David	1	55000
4	Alex	3	65000
5	Emily	2	55000

Le fichier

departments.csv contient les données suivantes -

ID du département	Nom du département
1	IT
2	VENTE
3	Marketing
4	Ressources humaines

示例

import pandas as pd

# Load CSV Files
employees = pd.read_csv('employees.csv')
departments = pd.read_csv('departments.csv')

# Merge dataframes based on DepartmentID column
merged_df = pd.merge(employees, departments, on='DepartmentID')

# Print merged dataframe
print(merged_df.head())

# Save merged dataframe to a new CSV file
merged_df.to_csv('merged_employees_departments.csv', index=False)

Copier après la connexion

输出

   EmployeeID   Name  DepartmentID  Salary DepartmentName
0           1   John             1   50000             IT
1           3  David             1   55000             IT
2           2  Sarah             2   60000          Sales
3           5  Emily             2   55000          Sales
4           4   Alex             3   65000      Marketing

Copier après la connexion

示例 2：使用 Join() 函数

在本例中，我们将使用 Pandas 的 join() 方法根据特定列合并两个 CSV 文件。

CSV Files

Copier après la connexion

假设我们有两个 CSV 文件：orders.csv 和customers.csv。 order.csv 文件包含以下数据 -

订单ID	客户ID	订单日期	总金额
1	1	2022-05-01	100.0
2	3	2022-05-02	150.0
3	2	2022-05-03	200.0
4	1	2022-05-04	75.0
5	4	2022-05-05	120.0

customers.csv 文件包含以下数据 -

客户ID	客户名称	电子邮件
1	约翰	john@example.com
2	莎拉	sarah@example.com
3	大卫	david@example.com
4	艾米丽	emily@example.com

示例

import pandas as pd

# Load CSV files
orders = pd.read_csv('orders.csv')
customers = pd.read_csv('customers.csv')

# Join dataframes based on CustomerID column
joined_df = orders.set_index('CustomerID').join(customers.set_index('CustomerID'))

# Print joined dataframe
print(joined_df.head())

# Save joined dataframe to a new CSV file
joined_df.to_csv('joined_orders_customers.csv')

Copier après la connexion

输出

            OrderID   OrderDate  TotalAmount CustomerName              Email
CustomerID                                                                  
1                 1  2022-05-01        100.0         John   john@example.com
1                 4  2022-05-04         75.0         John   john@example.com
2                 3  2022-05-03        200.0        Sarah  sarah@example.com
3                 2  2022-05-02        150.0        David  david@example.com
4                 5  2022-05-05        120.0        Emily  emily@example.com

Copier après la connexion

使用 Pandas 的 merge() 函数，我们根据本例中的“id”列合并了两个 CSV 文件。作为合并两个 CSV 文件的结果的 DataFrame 除了“name_x”、“email_x”、“name_y”和“email_y”列之外还包括“id”列。

请注意，“name_y”和“email_y”段的组合 DataFrame 中缺少值，这些值与第二个 CSV 记录中没有匹配质量的行相关。如上一步所示，Pandas fillna() 和 dropna() 函数可用于处理这些缺失值。

结论

基于特定列合并两个 CSV 文件是一项常见的数据处理任务，可以使用 Python 中的 Pandas 库轻松实现。在本文中，我们学习了如何使用 Pandas 的 merge() 函数合并两个 CSV 文件。我们还讨论了如何处理缺失值以及如何将合并的 DataFrame 保存到新的 CSV 文件。

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7455

Tutoriel CakePHP

1375

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Quelle est la raison pour laquelle PS continue de montrer le chargement? Apr 06, 2025 pm 06:39 PM

Les problèmes de «chargement» PS sont causés par des problèmes d'accès aux ressources ou de traitement: la vitesse de lecture du disque dur est lente ou mauvaise: utilisez Crystaldiskinfo pour vérifier la santé du disque dur et remplacer le disque dur problématique. Mémoire insuffisante: améliorez la mémoire pour répondre aux besoins de PS pour les images à haute résolution et le traitement complexe de couche. Les pilotes de la carte graphique sont obsolètes ou corrompues: mettez à jour les pilotes pour optimiser la communication entre le PS et la carte graphique. Les chemins de fichier sont trop longs ou les noms de fichiers ont des caractères spéciaux: utilisez des chemins courts et évitez les caractères spéciaux. Problème du PS: réinstaller ou réparer le programme d'installation PS.

Comment résoudre le problème du chargement lorsque PS est démarré? Apr 06, 2025 pm 06:36 PM

Un PS est coincé sur le "chargement" lors du démarrage peut être causé par diverses raisons: désactiver les plugins corrompus ou conflictuels. Supprimer ou renommer un fichier de configuration corrompu. Fermez des programmes inutiles ou améliorez la mémoire pour éviter une mémoire insuffisante. Passez à un entraînement à semi-conducteurs pour accélérer la lecture du disque dur. Réinstaller PS pour réparer les fichiers système corrompus ou les problèmes de package d'installation. Afficher les informations d'erreur pendant le processus de démarrage de l'analyse du journal d'erreur.

Comment résoudre le problème du chargement lorsque le PS ouvre le fichier? Apr 06, 2025 pm 06:33 PM

Le bégaiement "Chargement" se produit lors de l'ouverture d'un fichier sur PS. Les raisons peuvent inclure: un fichier trop grand ou corrompu, une mémoire insuffisante, une vitesse du disque dur lente, des problèmes de pilote de carte graphique, des conflits de version PS ou du plug-in. Les solutions sont: vérifier la taille et l'intégrité du fichier, augmenter la mémoire, mettre à niveau le disque dur, mettre à jour le pilote de carte graphique, désinstaller ou désactiver les plug-ins suspects et réinstaller PS. Ce problème peut être résolu efficacement en vérifiant progressivement et en faisant bon usage des paramètres de performances PS et en développant de bonnes habitudes de gestion des fichiers.

Comment utiliser MySQL après l'installation Apr 08, 2025 am 11:48 AM

L'article présente le fonctionnement de la base de données MySQL. Tout d'abord, vous devez installer un client MySQL, tel que MySQLWorkBench ou le client de ligne de commande. 1. Utilisez la commande MySQL-UROot-P pour vous connecter au serveur et connecter avec le mot de passe du compte racine; 2. Utilisez Createdatabase pour créer une base de données et utilisez Sélectionner une base de données; 3. Utilisez CreateTable pour créer une table, définissez des champs et des types de données; 4. Utilisez InsertInto pour insérer des données, remettre en question les données, mettre à jour les données par mise à jour et supprimer les données par Supprimer. Ce n'est qu'en maîtrisant ces étapes, en apprenant à faire face à des problèmes courants et à l'optimisation des performances de la base de données que vous pouvez utiliser efficacement MySQL.

Comment les plumes PS contrôlent-elles la douceur de la transition? Apr 06, 2025 pm 07:33 PM

La clé du contrôle des plumes est de comprendre sa nature progressive. Le PS lui-même ne fournit pas la possibilité de contrôler directement la courbe de gradient, mais vous pouvez ajuster de manière flexible le rayon et la douceur du gradient par plusieurs plumes, des masques correspondants et des sélections fines pour obtenir un effet de transition naturel.

MySQL doit-il payer Apr 08, 2025 pm 05:36 PM

MySQL a une version communautaire gratuite et une version d'entreprise payante. La version communautaire peut être utilisée et modifiée gratuitement, mais le support est limité et convient aux applications avec des exigences de stabilité faibles et des capacités techniques solides. L'Enterprise Edition fournit une prise en charge commerciale complète pour les applications qui nécessitent une base de données stable, fiable et haute performance et disposées à payer pour le soutien. Les facteurs pris en compte lors du choix d'une version comprennent la criticité des applications, la budgétisation et les compétences techniques. Il n'y a pas d'option parfaite, seulement l'option la plus appropriée, et vous devez choisir soigneusement en fonction de la situation spécifique.

Comment configurer des plumes de PS? Apr 06, 2025 pm 07:36 PM

La plume PS est un effet flou du bord de l'image, qui est réalisé par la moyenne pondérée des pixels dans la zone de bord. Le réglage du rayon de la plume peut contrôler le degré de flou, et plus la valeur est grande, plus elle est floue. Le réglage flexible du rayon peut optimiser l'effet en fonction des images et des besoins. Par exemple, l'utilisation d'un rayon plus petit pour maintenir les détails lors du traitement des photos des caractères et l'utilisation d'un rayon plus grand pour créer une sensation brumeuse lorsque le traitement de l'art fonctionne. Cependant, il convient de noter que trop grand, le rayon peut facilement perdre des détails de bord, et trop petit, l'effet ne sera pas évident. L'effet de plumes est affecté par la résolution de l'image et doit être ajusté en fonction de la compréhension de l'image et de la saisie de l'effet.

Comment optimiser les performances de la base de données après l'installation de MySQL Apr 08, 2025 am 11:36 AM

L'optimisation des performances MySQL doit commencer à partir de trois aspects: configuration d'installation, indexation et optimisation des requêtes, surveillance et réglage. 1. Après l'installation, vous devez ajuster le fichier my.cnf en fonction de la configuration du serveur, tel que le paramètre innodb_buffer_pool_size, et fermer query_cache_size; 2. Créez un index approprié pour éviter les index excessifs et optimiser les instructions de requête, telles que l'utilisation de la commande Explication pour analyser le plan d'exécution; 3. Utilisez le propre outil de surveillance de MySQL (ShowProcessList, Showstatus) pour surveiller la santé de la base de données, et sauvegarde régulièrement et organisez la base de données. Ce n'est qu'en optimisant en continu ces étapes que les performances de la base de données MySQL peuvent être améliorées.

See all articles