Maison > développement back-end > Tutoriel Python > Optimiser le traitement des données à grande échelle en Python : un guide pour paralléliser les opérations CSV

Optimiser le traitement des données à grande échelle en Python : un guide pour paralléliser les opérations CSV

DDD
Libérer: 2024-12-13 06:26:15
original
289 Les gens l'ont consulté

Optimizing Large-Scale Data Processing in Python: A Guide to Parallelizing CSV Operations

Problème

Les approches standard, telles que l'utilisation de pandas.read_csv(), échouent souvent lors du traitement de fichiers CSV volumineux. Ces méthodes sont monothread et peuvent rapidement devenir des goulots d'étranglement en raison des E/S disque ou des limitations de mémoire.


Le test pratique ultime pour les programmeurs Python


Solution

En parallélisant les opérations CSV, vous pouvez utiliser plusieurs cœurs de processeur pour traiter les données plus rapidement et plus efficacement. Ce guide décrit les techniques utilisant :

  1. Dask : calcul parallèle avec des modifications minimes du code pandas.
  2. Polars : Une bibliothèque DataFrame haute performance.
  3. Module multitraitement de Python : Parallélisation personnalisée.
  4. Fractionnement de fichiers : divisez et conquérez en utilisant des morceaux plus petits.

Techniques

1. Fractionner des fichiers volumineux

Décomposer un gros fichier CSV en morceaux plus petits permet un traitement parallèle. Voici un exemple de script :

import os

def split_csv(file_path, lines_per_chunk=1000000):
    with open(file_path, 'r') as file:
        header = file.readline()
        file_count = 0
        output_file = None
        for i, line in enumerate(file):
            if i % lines_per_chunk == 0:
                if output_file:
                    output_file.close()
                file_count += 1
                output_file = open(f'chunk_{file_count}.csv', 'w')
                output_file.write(header)
            output_file.write(line)
        if output_file:
            output_file.close()
    print(f"Split into {file_count} files.")

Copier après la connexion

2. Traitement parallèle avec Dask

Dask change la donne pour la gestion de données à grande échelle en Python. Il peut paralléliser les opérations sur de grands ensembles de données sans effort :

import dask.dataframe as dd

# Load the dataset as a Dask DataFrame
df = dd.read_csv('large_file.csv')

# Perform parallel operations
result = df[df['column_name'] > 100].groupby('another_column').mean()

# Save the result
result.to_csv('output_*.csv', single_file=True)

Copier après la connexion

Dask gère les contraintes de mémoire en opérant sur des morceaux de données et en planifiant intelligemment les tâches sur les cœurs disponibles.


Le test pratique ultime pour les programmeurs Python


3. Superchargez-vous avec Polars

Polars est une bibliothèque relativement nouvelle qui combine la vitesse de Rust avec la flexibilité de Python. Il est conçu pour le matériel moderne et peut gérer les fichiers CSV beaucoup plus rapidement que les pandas :

import polars as pl

# Read CSV using Polars
df = pl.read_csv('large_file.csv')

# Filter and aggregate data
filtered_df = df.filter(pl.col('column_name') > 100).groupby('another_column').mean()

# Write to CSV
filtered_df.write_csv('output.csv')


Copier après la connexion

Polars excelle dans les situations où la vitesse et le parallélisme sont essentiels. C'est particulièrement efficace pour les systèmes comportant plusieurs cœurs.

4. Parallélisme manuel avec multitraitement

Si vous préférez garder le contrôle sur la logique de traitement, le module multitraitement de Python offre un moyen simple de paralléliser les opérations CSV :

from multiprocessing import Pool
import pandas as pd

def process_chunk(file_path):
    df = pd.read_csv(file_path)
    # Perform operations
    filtered_df = df[df['column_name'] > 100]
    return filtered_df

if __name__ == '__main__':
    chunk_files = [f'chunk_{i}.csv' for i in range(1, 6)]
    with Pool(processes=4) as pool:
        results = pool.map(process_chunk, chunk_files)

    # Combine results
    combined_df = pd.concat(results)
    combined_df.to_csv('final_output.csv', index=False)

Copier après la connexion

Considérations clés

  1. E/S disque vs CPU lié

    Assurez-vous que votre stratégie parallèle équilibre le traitement du processeur avec les vitesses de lecture/écriture du disque. Optimisez selon que votre goulot d'étranglement est lié aux E/S ou au calcul.

  2. Surcharge de mémoire

    Des outils comme Dask ou Polars sont plus efficaces en termes de mémoire que le multitraitement manuel. Choisissez des outils adaptés aux contraintes de mémoire de votre système.

  3. Gestion des erreurs

    Le traitement parallèle peut introduire de la complexité dans le débogage et la gestion des erreurs. Implémentez une journalisation robuste et une gestion des exceptions pour garantir la fiabilité.


Le test pratique ultime pour les programmeurs Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:dev.to
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal