使用工作流程處理Pandas 中的大型資料集
許多實際應用程式涉及的資料集太大而無法容納在記憶體中。 Pandas 為有效處理此類數據提供了核外支持。本文討論使用 Pandas 完成核心工作流程的最佳實務。
1.將平面檔案載入到永久的磁碟資料庫結構
使用 HDFStore 在磁碟上儲存大型資料集。迭代檔案並將它們附加到 HDFStore,使用逐塊讀取來避免記憶體問題。定義一個連接欄位組和資料列的組圖,以便日後有效率地選擇。
2.查詢資料庫以檢索資料
要檢索 Pandas 資料結構的數據,請根據群組對應從 HDFStore 中選擇一個群組。 (可選)指定所需的列或使用“where”套用過濾條件。
3.在 Pandas 中操作片段後更新資料庫
透過對選取列執行操作來建立新列。若要將這些新欄位新增至資料庫中,請在 HDFStore 中建立新群組並附加新列,確保資料列定義。
以上是Pandas 如何有效處理記憶體無法容納的大型資料集?的詳細內容。更多資訊請關注PHP中文網其他相關文章!