Panda dan Pertanyaan SQL Besar: Pendekatan Cekap Memori
Memproses pertanyaan SQL yang melebihi 5 juta rekod menggunakan pandas.io.sql.read_frame()
boleh membawa kepada ralat ingatan. Walau bagaimanapun, panda menawarkan penyelesaian yang teguh untuk mengendalikan set data yang begitu besar: memprosesnya dalam bahagian yang lebih kecil dan boleh diurus.
Sejak panda versi 0.15, fungsi read_sql_query()
menggabungkan parameter chunksize
. Ini membolehkan anda mendapatkan semula hasil pertanyaan secara berulang, mengurangkan penggunaan memori dengan ketara. Anda menentukan bilangan rekod yang dikehendaki bagi setiap bahagian, dengan berkesan memecahkan pertanyaan besar kepada bahagian yang lebih kecil dan lebih mudah diurus.
Sebagai contoh, untuk memproses pertanyaan dalam 5,000 keping rekod:
<code class="language-python">sql = "SELECT * FROM MyTable" for chunk in pd.read_sql_query(sql, engine, chunksize=5000): # Process each chunk here (e.g., calculations, analysis, etc.) print(chunk) </code>
Pendekatan berulang ini mengelakkan memuatkan keseluruhan set data ke dalam memori secara serentak. Setiap bahagian diproses secara bebas, meminimumkan jejak memori dan membolehkan manipulasi data yang cekap dalam DataFrames panda, walaupun dengan set data yang sangat besar. Parameter chunksize
adalah kunci untuk mengendalikan pertanyaan SQL yang banyak dengan cekap dan mencegah keletihan memori.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengendalikan Pertanyaan SQL Besar dalam Panda Tanpa Kehabisan Memori?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!