Rumah > pembangunan bahagian belakang > Tutorial Python > Bagaimana Mengendalikan Isu Memori Semasa Membaca Fail CSV Besar dalam Python?

Bagaimana Mengendalikan Isu Memori Semasa Membaca Fail CSV Besar dalam Python?

Mary-Kate Olsen
Lepaskan: 2024-11-09 05:07:02
asal
567 orang telah melayarinya

How to Handle Memory Issues When Reading Large CSV Files in Python?

Membaca Fail CSV yang Luas dalam Python

Dalam Python 2.7, pengguna sering menghadapi masalah ingatan apabila membaca fail CSV dengan berjuta-juta baris dan beratus-ratus lajur. Artikel ini menangani cabaran ini dan menawarkan penyelesaian untuk memproses fail CSV yang besar dengan berkesan.

Kod dan Isu Asal

Kod yang disediakan bertujuan untuk membaca baris tertentu daripada fail CSV berasaskan pada kriteria tertentu. Walau bagaimanapun, ia memuatkan semua baris ke dalam senarai sebelum diproses, yang membawa kepada ralat memori untuk fail melebihi 300,000 baris.

Penyelesaian 1: Proses Baris Secara Bertambah

Untuk menghapuskan isu ingatan, adalah penting untuk memproses baris secara berperingkat dan bukannya menyimpannya dalam senarai. Fungsi penjana boleh digunakan untuk mencapai ini:

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        for row in datareader:
            if row[3] == criterion:
                yield row
Salin selepas log masuk

Fungsi ini menghasilkan baris pengepala dan baris berikutnya yang sepadan dengan kriteria, dan kemudian berhenti membaca.

Penyelesaian 2: Penapisan Dioptimumkan

Sebagai alternatif, kaedah penapisan yang lebih ringkas boleh digunakan:

def getstuff(filename, criterion):
    with open(filename, "rb") as csvfile:
        datareader = csv.reader(csvfile)
        yield next(datareader)  # yield the header row
        yield from takewhile(
            lambda r: r[3] == criterion,
            dropwhile(lambda r: r[3] != criterion, datareader))
Salin selepas log masuk

Kaedah ini menggunakan fungsi takewhile dan dropwhile daripada modul itertools untuk menapis baris.

Kod Kemas Kini

Dalam fungsi getdata, pemahaman senarai digantikan dengan penjana kefahaman:

def getdata(filename, criteria):
    for criterion in criteria:
        for row in getstuff(filename, criterion):
            yield row
Salin selepas log masuk

Kesimpulan

Dengan menggunakan fungsi penjana dan mengoptimumkan teknik penapisan, adalah mungkin untuk memproses fail CSV yang besar dengan berkesan, mengelakkan ralat memori dan meningkatkan prestasi dengan ketara .

Atas ialah kandungan terperinci Bagaimana Mengendalikan Isu Memori Semasa Membaca Fail CSV Besar dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan