社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 後端開發 > Python教學 > 如何使用'dtype”和'low_memory”選項來最佳化 Pandas'read_csv”？

如何使用'dtype”和'low_memory”選項來最佳化 Pandas'read_csv”？

Susan Sarandon

發布： 2024-11-08 18:08:02

原創

434 人瀏覽過

How to Optimize Pandas `read_csv` with `dtype` and `low_memory` Options?

Pandas read_csv: low_memory 和dtype 選項

使用pd.read_csv('somefile.csv') 時，您可能會遇到DtypeWarning 指示列具有混合類型。指定 dtype 選項可以防止此錯誤並提高效能。

了解 low_memory 選項

已棄用的 low_memory 選項實際上不會影響行為。但是，它與 dtype 選項相關，因為猜測每列的 dtypes 可能會佔用大量記憶體。

防止資料不符

如果最後一行您的檔案包含意外數據，指定資料類型可能會導致載入過程失敗。例如，如果指定為整數的列包含類似「foobar」的字串值，則載入將中斷。

指定 dtypes

要避免此類錯誤，請明確讀取 CSV 檔案時指定 dtypes。使用 dtype 選項為每一列分配正確的資料類型，從而實現高效解析並減少記憶體消耗。

可用的 dtypes

Pandas 支援各種 dtypes，包括:

Numpy模式種：float、int、bool、timedelta64[ns]、datetime64[ns]
Pandas 擴充：
- datetime64 [ns, ]（時區感知時間戳記）
- 類別（枚舉）
- period[]（時間段）
- 稀疏（有漏洞的資料）
- 間隔（索引）
- 可空整數（Int8、Int16、Int32、Int64、UInt8、UInt16、UInt32、UInt64）
- 字串（用於運算字串）
- boolean (nullable bool)

陷阱

設定 dtype=object 會靜音警告，但不會提高記憶體效率。
設定 dtype=unicode 沒有任何效果，因為 numpy 將 unicode 表示為物件。
轉換器可用於處理意外數據，但由於 Pandas 的單一進程，效率較低大自然。

以上是如何使用'dtype”和'low_memory”選項來最佳化 Pandas'read_csv”？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

上一篇：OpenAI API 速率限制錯誤：如何升級並繼續使用 API？下一篇：可以在沒有字串建構函數的 SQLite 中使用變數表名稱嗎？

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

最新問題

您如何在Python中打開，閱讀和寫文件？

2025-03-19 14:31:30
如何在Python中創建自定義迭代器？

2025-03-19 14:29:32
如何使用PIP安裝和管理軟件包？

2025-03-19 14:28:24
解釋Python中虛擬環境的目的。

2025-03-19 14:27:22
__name__ =='__ -main __'的目的是什麼？

2025-03-19 14:25:22

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1438359
php入門教程之一週學會PHP

4299097
JAVA 初級入門影片教學

2673182
小甲魚零基礎入門學習Python影片教學

517362
PHP 零基礎入門教學

878526

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板