Python資料處理pandas中使用CSV作為IO工具的讀寫操作
前言
#pandas
的IO
API
是一組頂層的reader
函數,例如pandas.read_csv()
,會傳回一個pandas
物件。
而對應的 writer
函數是物件方法,如 DataFrame.to_csv()
。
注意:後面會用到StringIO
,請確保導入
# python3 from io import StringIO # python2 from StringIO import StringIO
1 CSV 和文字檔
讀取文字檔的主要函數是read_csv()
1 參數解析
read_csv()
接受以下常用參數:
1.1 基礎
filepath_or_buffer
: 變數
可以是檔案路徑、檔案
URL
或任何有read()
函數的物件
sep
: str
,預設,
,對於read_table
是 \t
檔案分隔符,如果設定為
None
,則C
引擎無法自動偵測分隔符,而Python
引擎可以透過內建的嗅探器工具自動偵測分隔符號。此外,如果設定的字元長度大於
1
,且不是'\s '
,那麼該字串會被解析為正規則表達式,且強制使用Python
解析引擎。例如
'\\r\\t'
,但是正規表示式容易忽略文字中的引用資料。
delimiter
: str
, 預設為None
##sep
的替代參數,函數一致
##1.2 欄位、索引、名稱
: int
或list
, 預設為'infer'
- #用作列名的行號,預設行為是對列名進行推論:
- names
參數其行為類似於
header=0
,即從讀取的第一行開始推斷。 如果設定了 - names
,則行為與
header=None
相同。 - header
設定列表,表示多層列名。如
[0,1,3]
,未指定的行(這裡是2
)將會被跳過,如果skip_blank_lines=True
,則會跳過空行和註解的行。因此header=0
並不是代表檔案的第一行
- 如果未指定
: array-like
, 預設為None
- 需要設定的列名列表,如果檔案中不包含標題行,則應明確傳遞
- header=None
,且此清單中不允許有重複值。
: int
, str
, sequence of int/str
, False
, 預設為None
- 用作
- DataFrame
的索引的列,可以字串名稱或列索引的形式給出。如果指定了列表,則使用
MultiIndex
#注意: - index_col=False
可用來強制
pandas
# 不要將第一列用作索引。例如,當您的檔案是每行末尾都帶有一個分隔符號的錯誤檔案時。
: 列表或函數, 預設為None
- 只讀取指定的列。如果是列表,則所有元素都必須是位置(即文件列中的整數索引)或字串,這些字串必須與
- names
參數提供的或從文件標題行推斷出的列名相對應。
列表中的順序會被忽略,即 - usecols=[0, 1]
等價於
[1, 0]
如果是可呼叫函數,將會根據列名計算,傳回可呼叫函數計算為 - True
的名稱
In [1]: import pandas as pd In [2]: from io import StringIO In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [4]: pd.read_csv(StringIO(data)) Out[4]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"]) Out[5]: col1 col3 0 a 1 1 a 2 2 c 3
登入後複製使用此參數可以大幅加快解析時間並降低記憶體使用
: boolean
, 預設為False
##如果解析的資料只包含一列,那麼傳回一個
Series #prefix
str, 預設為
None
重复的列将被指定为
'X'
,'X.1'
…'X.N'
,而不是'X'
... 。如果在列中有重复的名称,传递False
将导致数据被覆盖
1.3 常规解析配置
dtype
: 类型名或类型字典(column -> type
), 默认为 None
数据或列的数据类型。例如。
{'a':np.float64,'b':np.int32}
engine
: {'c', 'python'}
要使用的解析器引擎。
C
引擎更快,而Python
引擎目前功能更完整
converters
: dict
, 默认为 None
用于在某些列中对值进行转换的函数字典。键可以是整数,也可以是列名
true_values
: list
, 默认为 None
数据值解析为
True
false_values
: list
, 默认为 None
数据值解析为
False
skipinitialspace
: boolean
, 默认为 False
跳过分隔符之后的空格
skiprows
: 整数或整数列表, 默认为 None
在文件开头要跳过的行号(索引为
0
)或要跳过的行数如果可调用函数,则对索引应用函数,如果返回
True
,则应跳过该行,否则返回False
In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [7]: pd.read_csv(StringIO(data)) Out[7]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0) Out[8]: col1 col2 col3 0 a b 2
skipfooter
: int
, 默认为 0
需要跳过文件末尾的行数(不支持
C
引擎)
nrows
: int
, 默认为 None
要读取的文件行数,对于读取大文件很有用
memory_map
: boolean
, 默认为 False
如果为
filepath_or_buffer
参数指定了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I/O
开销
1.4 NA 和缺失数据处理
na_values
: scalar
, str
, list-like
, dict
, 默认为 None
需要转换为
NA
值的字符串
keep_default_na
: boolean
, 默认为 True
解析数据时是否包含默认的
NaN
值。根据是否传入na_values
,其行为如下keep_default_na=True
, 且指定了na_values
,na_values
将会与默认的NaN
一起被解析keep_default_na=True
, 且未指定na_values
, 只解析默认的NaN
keep_default_na=False
, 且指定了na_values
, 只解析na_values
指定的NaN
keep_default_na=False
, 且未指定na_values
, 字符串不会被解析为NaN
注意:如果 na_filter=False
,那么 keep_default_na
和 na_values
参数将被忽略
na_filter
: boolean
, 默认为 True
检测缺失值标记(空字符串和
na_values
的值)。在没有任何NA
的数据中,设置na_filter=False
可以提高读取大文件的性能
skip_blank_lines
: boolean
, 默认为 True
如果为
True
,则跳过空行,而不是解释为NaN
值
1.5 日期时间处理
parse_dates
: 布尔值、列表或嵌套列表、字典, 默认为 False
.
如果为
True
-> 尝试解析索引如果为
[1, 2, 3]
-> 尝试将1, 2, 3
列解析为分隔的日期如果为
[[1, 3]]
-> 将1, 3
列解析为单个日期列如果为
{'foo': [1, 3]}
-> 将1, 3
列作为日期并设置列名为foo
infer_datetime_format
: 布尔值, 默认为 False
如果设置为
True
且设置了parse_dates
,则尝试推断datetime
格式以加快处理速度
date_parser
: 函数, 默认为 None
用于将字符串序列转换为日期时间实例数组的函数。默认使用
dateutil.parser.parser
进行转换,pandas
将尝试以三种不同的方式调用date_parser
传递一个或多个数组(
parse_dates
定义的列)作为参数;将
parse_dates
定义的列中的字符串值连接到单个数组中,并将其传递;使用一个或多个字符串(对应于
parse_dates
定义的列)作为参数,对每一行调用date_parser
一次。
dayfirst
: 布尔值, 默认为 False
DD/MM
格式的日期
cache_dates
: 布尔值, 默认为 True
如果为
True
,则使用唯一的、经过转换的日期缓存来应用datetime
转换。在解析重复的日期字符串,特别是带有时区偏移量的日期字符串时,可能会显著提高速度。
1.6 迭代
iterator
: boolean
, 默认为 False
返回
TextFileReader
对象以进行迭代或使用get_chunk()
来获取块
1.7 引用、压缩和文件格式
compression
: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}
, 默认为 'infer'
用于对磁盘数据进行即时解压缩。如果为
"infer"
,则如果filepath_or_buffer
是文件路径且以".gz"
,".bz2"
,".zip"
或".xz"
结尾,则分别使用gzip
,bz2
,zip
或xz
解压,否则不进行解压缩。如果使用
"zip"
,则ZIP
文件必须仅包含一个要读取的数据文件。设置为None
表示不解压也可以使用字典的方式,键为
method
的值从{'zip', 'gzip', 'bz2'}
中选择。例如
compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}
thousandsstr
, 默认为 None
数值在千位的分隔符
decimal
: str
, 默认为 '.'
小数点
float_precision
: string
, 默认为 None
指定
C
引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为None
,高精度转换器的选项为high
,双向转换器的选项为round_trip
。
quotechar
: str
(长度为 1
)
用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略
comment
: str
, 默认为 None
用于跳过该字符开头的行,例如,如果
comment='#'
,将会跳过#
开头的行
encoding
: str
, 默认为 None
设置编码格式
1.8 错误处理
error_bad_linesboolean
, 默认为 True
默认情况下,字段太多的行(例如,带有太多逗号的
csv
文件)会引发异常,并且不会返回任何DataFrame
。如果设置为
False
,则这些坏行将会被删除
warn_bad_linesboolean
, 默认为 True
如果
error_bad_lines=False
且warn_bad_lines=True
,每个坏行都会输出一个警告
2. 指定数据列的类型
您可以指示整个 DataFrame
或各列的数据类型
In [9]: import numpy as np In [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11" In [11]: print(data) a,b,c,d 1,2,3,4 5,6,7,8 9,10,11 In [12]: df = pd.read_csv(StringIO(data), dtype=object) In [13]: df Out[13]: a b c d 0 1 2 3 4 1 5 6 7 8 2 9 10 11 NaN In [14]: df["a"][0] Out[14]: '1' In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"}) In [16]: df.dtypes Out[16]: a int64 b object c float64 d Int64 dtype: object
你可以使用 read_csv()
的 converters
参数,统一某列的数据类型
In [17]: data = "col_1\n1\n2\n'A'\n4.22" In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str}) In [19]: df Out[19]: col_1 0 1 1 2 2 'A' 3 4.22 In [20]: df["col_1"].apply(type).value_counts() Out[20]: <class 'str'> 4 Name: col_1, dtype: int64
或者,您可以在读取数据后使用 to_numeric()
函数强制转换类型
In [21]: df2 = pd.read_csv(StringIO(data)) In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce") In [23]: df2 Out[23]: col_1 0 1.00 1 2.00 2 NaN 3 4.22 In [24]: df2["col_1"].apply(type).value_counts() Out[24]: <class 'float'> 4 Name: col_1, dtype: int64
它将所有有效的数值转换为浮点数,而将无效的解析为 NaN
最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为 NaN
,那么 to_numeric()
可能是您的最佳选择。
然而,如果您想要强制转换所有数据,而无论类型如何,那么使用 read_csv()
的 converters
参数会更好
注意
在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。
如果您依赖 pandas
来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。
In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000)) In [26]: df = pd.DataFrame({"col_1": col_1}) In [27]: df.to_csv("foo.csv") In [28]: mixed_df = pd.read_csv("foo.csv") In [29]: mixed_df["col_1"].apply(type).value_counts() Out[29]: <class 'int'> 737858 <class 'str'> 262144 Name: col_1, dtype: int64 In [30]: mixed_df["col_1"].dtype Out[30]: dtype('O')
这就导致 mixed_df
对于列的某些块包含 int
类型,而对于其他块则包含 str
,这是由于读取的数据是混合类型。
以上是Python資料處理pandas中使用CSV作為IO工具的讀寫操作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

在 Sublime Text 中運行 Python 代碼,需先安裝 Python 插件,再創建 .py 文件並編寫代碼,最後按 Ctrl B 運行代碼,輸出會在控制台中顯示。

在 Visual Studio Code(VSCode)中編寫代碼簡單易行,只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富,以及輕量快速。

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。
