处理太大而无法放入内存的数据集时,核心外工作流程至关重要。在此背景下,我们探索使用 pandas 处理大数据的最佳实践。
要有效管理大型数据集,请考虑以下最佳实践工作流程:
将平面文件加载到磁盘数据库结构中:
查询数据库以检索数据Pandas 数据结构:
操作 Pandas 中的片段后更新数据库:
示例:
import pandas as pd # Group mappings for logical field grouping group_map = { "A": {"fields": ["field_1", "field_2"], "dc": ["field_1"]}, "B": {"fields": ["field_10"], "dc": ["field_10"]}, ... } # Iterate over flat files and append data to tables for file in files: chunk = pd.read_table(file, chunksize=50000) for group, info in group_map.items(): frame = chunk.reindex(columns=info["fields"], copy=False) store.append(group, frame, data_columns=info["dc"]) # Retrieve specific columns selected_columns = ["field_1", "field_10"] group_1 = "A" group_2 = "B" data = store.select_as_multiple([group_1, group_2], columns=selected_columns)
以上是Pandas 如何处理超出可用内存的大型数据集?的详细内容。更多信息请关注PHP中文网其他相关文章!