Apabila berurusan dengan set data terlalu besar untuk dimuatkan dalam ingatan, aliran kerja luar teras adalah penting. Dalam konteks ini, kami meneroka amalan terbaik untuk mengendalikan data besar menggunakan panda.
Untuk mengurus set data besar dengan cekap, pertimbangkan aliran kerja amalan terbaik berikut:
Memuatkan Fail Rata ke dalam Struktur Pangkalan Data Dalam Cakera:
Menyiasat Pangkalan Data untuk Dapatkan Data ke dalam Struktur Data Pandas:
Mengemas kini Pangkalan Data Selepas Memanipulasi Potongan dalam Panda:
Contoh:
import pandas as pd # Group mappings for logical field grouping group_map = { "A": {"fields": ["field_1", "field_2"], "dc": ["field_1"]}, "B": {"fields": ["field_10"], "dc": ["field_10"]}, ... } # Iterate over flat files and append data to tables for file in files: chunk = pd.read_table(file, chunksize=50000) for group, info in group_map.items(): frame = chunk.reindex(columns=info["fields"], copy=False) store.append(group, frame, data_columns=info["dc"]) # Retrieve specific columns selected_columns = ["field_1", "field_10"] group_1 = "A" group_2 = "B" data = store.select_as_multiple([group_1, group_2], columns=selected_columns)
Atas ialah kandungan terperinci Bagaimanakah Panda Boleh Mengendalikan Set Data Besar yang Melebihi Memori Tersedia?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!