目錄
前言
1 CSV 和文字檔
1 參數解析
1.1 基礎
1.3 常规解析配置
1.4 NA 和缺失数据处理
1.5 日期时间处理
1.6 迭代
1.7 引用、压缩和文件格式
1.8 错误处理
2. 指定数据列的类型
首頁 後端開發 Python教學 Python資料處理pandas中使用CSV作為IO工具的讀寫操作

Python資料處理pandas中使用CSV作為IO工具的讀寫操作

May 08, 2023 pm 04:10 PM
python csv pandas

    前言

    #pandasIO API是一組頂層的reader 函數,例如pandas.read_csv(),會傳回一個pandas 物件。

    而對應的 writer 函數是物件方法,如 DataFrame.to_csv()

    注意:後面會用到StringIO,請確保導入

    # python3
    from io import StringIO
    # python2
    from StringIO import StringIO
    登入後複製

    1 CSV 和文字檔

    讀取文字檔的主要函數是read_csv()

    1 參數解析

    read_csv() 接受以下常用參數:

    1.1 基礎

    filepath_or_buffer: 變數

    • 可以是檔案路徑、檔案URL 或任何有read() 函數的物件

    sep: str,預設,,對於read_table \t

    • 檔案分隔符,如果設定為None,則C 引擎無法自動偵測分隔符,而 Python 引擎可以透過內建的嗅探器工具自動偵測分隔符號。

    • 此外,如果設定的字元長度大於1,且不是'\s ',那麼該字串會被解析為正規則表達式,且強制使用Python 解析引擎。

    • 例如 '\\r\\t',但是正規表示式容易忽略文字中的引用資料。

    delimiter: str, 預設為None

    • ##sep 的替代參數,函數一致

    • ##1.2 欄位、索引、名稱
    header

    : intlist, 預設為'infer'

      #用作列名的行號,預設行為是對列名進行推論:
      • 如果未指定
      • names

        參數其行為類似於header=0,即從讀取的第一行開始推斷。

      • 如果設定了
      • names

        ,則行為與 header=None 相同。

      也可以為
    • header

      設定列表,表示多層列名。如[0,1,3],未指定的行(這裡是2)將會被跳過,如果skip_blank_lines=True,則會跳過空行和註解的行。因此header=0 並不是代表檔案的第一行

    names

    : array-like, 預設為None

      需要設定的列名列表,如果檔案中不包含標題行,則應明確傳遞
    • header=None

      ,且此清單中不允許有重複值。

    index_col

    : int, str, sequence of int/str, False, 預設為None

      用作
    • DataFrame

      的索引的列,可以字串名稱或列索引的形式給出。如果指定了列表,則使用MultiIndex

    • #注意:
    • index_col=False

      可用來強制pandas# 不要將第一列用作索引。例如,當您的檔案是每行末尾都帶有一個分隔符號的錯誤檔案時。

    usecols

    : 列表或函數, 預設為None

      只讀取指定的列。如果是列表,則所有元素都必須是位置(即文件列中的整數索引)或字串,這些字串必須與
    • names

      參數提供的或從文件標題行推斷出的列名相對應。

    • 列表中的順序會被忽略,即
    • usecols=[0, 1]

      等價於[1, 0]

    • 如果是可呼叫函數,將會根據列名計算,傳回可呼叫函數計算為
    • True

      的名稱

      In [1]: import pandas as pd
      In [2]: from io import StringIO
      In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
      In [4]: pd.read_csv(StringIO(data))
      Out[4]: 
        col1 col2  col3
      0    a    b     1
      1    a    b     2
      2    c    d     3
      In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])
      Out[5]: 
        col1  col3
      0    a     1
      1    a     2
      2    c     3
      登入後複製
    • 使用此參數可以大幅加快解析時間並降低記憶體使用

    squeeze

    : boolean, 預設為False

    • ##如果解析的資料只包含一列,那麼傳回一個Series

    • #prefix
    :

    str, 預設為None

    當沒有標題時,加入到自動產生的列號的前綴,例如###'X'### 表示# ##X0###, ###X1###...###############mangle_dupe_cols###: ###boolean###, 預設為### True######
    • 重复的列将被指定为 'X','X.1''X.N',而不是 'X'... 。如果在列中有重复的名称,传递 False 将导致数据被覆盖

    1.3 常规解析配置

    dtype: 类型名或类型字典(column -> type), 默认为 None

    • 数据或列的数据类型。例如。 {'a':np.float64,'b':np.int32}

    engine: {'c', 'python'}

    • 要使用的解析器引擎。C 引擎更快,而 Python 引擎目前功能更完整

    converters: dict, 默认为 None

    • 用于在某些列中对值进行转换的函数字典。键可以是整数,也可以是列名

    true_values: list, 默认为 None

    • 数据值解析为 True

    false_values: list, 默认为 None

    • 数据值解析为 False

    skipinitialspace: boolean, 默认为 False

    • 跳过分隔符之后的空格

    skiprows: 整数或整数列表, 默认为 None

    • 在文件开头要跳过的行号(索引为 0)或要跳过的行数

    • 如果可调用函数,则对索引应用函数,如果返回 True,则应跳过该行,否则返回 False

    In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
    In [7]: pd.read_csv(StringIO(data))
    Out[7]: 
      col1 col2  col3
    0    a    b     1
    1    a    b     2
    2    c    d     3
    In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)
    Out[8]: 
      col1 col2  col3
    0    a    b     2
    登入後複製

    skipfooter: int, 默认为 0

    • 需要跳过文件末尾的行数(不支持 C 引擎)

    nrows: int, 默认为 None

    • 要读取的文件行数,对于读取大文件很有用

    memory_map: boolean, 默认为 False

    • 如果为 filepath_or_buffer 参数指定了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何 I/O 开销

    1.4 NA 和缺失数据处理

    na_values: scalar, str, list-like, dict, 默认为 None

    • 需要转换为 NA 值的字符串

    keep_default_na: boolean, 默认为 True

    • 解析数据时是否包含默认的 NaN 值。根据是否传入 na_values,其行为如下

    • keep_default_na=True, 且指定了 na_values, na_values 将会与默认的 NaN 一起被解析

    • keep_default_na=True, 且未指定 na_values, 只解析默认的 NaN

    • keep_default_na=False, 且指定了 na_values, 只解析 na_values 指定的 NaN

    • keep_default_na=False, 且未指定 na_values, 字符串不会被解析为 NaN

    注意:如果 na_filter=False,那么 keep_default_nana_values 参数将被忽略

    na_filter: boolean, 默认为 True

    • 检测缺失值标记(空字符串和 na_values 的值)。在没有任何 NA 的数据中,设置 na_filter=False 可以提高读取大文件的性能

    skip_blank_lines: boolean, 默认为 True

    • 如果为 True,则跳过空行,而不是解释为 NaN

    1.5 日期时间处理

    parse_dates: 布尔值、列表或嵌套列表、字典, 默认为 False.

    • 如果为 True -> 尝试解析索引

    • 如果为 [1, 2, 3] -> 尝试将 1, 2, 3 列解析为分隔的日期

    • 如果为 [[1, 3]] -> 将 1, 3 列解析为单个日期列

    • 如果为 {'foo': [1, 3]} -> 将 1, 3 列作为日期并设置列名为 foo

    infer_datetime_format: 布尔值, 默认为 False

    • 如果设置为 True 且设置了 parse_dates,则尝试推断 datetime 格式以加快处理速度

    date_parser: 函数, 默认为 None

    • 用于将字符串序列转换为日期时间实例数组的函数。默认使用 dateutil.parser.parser 进行转换,pandas 将尝试以三种不同的方式调用 date_parser

      • 传递一个或多个数组(parse_dates 定义的列)作为参数;

      • parse_dates 定义的列中的字符串值连接到单个数组中,并将其传递;

      • 使用一个或多个字符串(对应于 parse_dates 定义的列)作为参数,对每一行调用 date_parser 一次。

    dayfirst: 布尔值, 默认为 False

    • DD/MM 格式的日期

    cache_dates: 布尔值, 默认为 True

    • 如果为 True,则使用唯一的、经过转换的日期缓存来应用 datetime 转换。

    • 在解析重复的日期字符串,特别是带有时区偏移量的日期字符串时,可能会显著提高速度。

    1.6 迭代

    iterator: boolean, 默认为 False

    • 返回 TextFileReader 对象以进行迭代或使用 get_chunk() 来获取块

    1.7 引用、压缩和文件格式

    compression: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}, 默认为 'infer'

    • 用于对磁盘数据进行即时解压缩。如果为 "infer",则如果 filepath_or_buffer 是文件路径且以 ".gz"".bz2"".zip"".xz" 结尾,则分别使用 gzipbz2zipxz 解压,否则不进行解压缩。

    • 如果使用 "zip",则 ZIP 文件必须仅包含一个要读取的数据文件。设置为 None 表示不解压

    • 也可以使用字典的方式,键为 method 的值从 {'zip', 'gzip', 'bz2'} 中选择。例如

    compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}
    登入後複製

    thousandsstr, 默认为 None

    • 数值在千位的分隔符

    decimal: str, 默认为 '.'

    • 小数点

    float_precision: string, 默认为 None

    • 指定 C 引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为 None,高精度转换器的选项为 high,双向转换器的选项为 round_trip

    quotechar: str (长度为 1)

    • 用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略

    comment: str, 默认为 None

    • 用于跳过该字符开头的行,例如,如果 comment='#',将会跳过 # 开头的行

    encoding: str, 默认为 None

    • 设置编码格式

    1.8 错误处理

    error_bad_linesboolean, 默认为 True

    • 默认情况下,字段太多的行(例如,带有太多逗号的 csv 文件)会引发异常,并且不会返回任何 DataFrame

    • 如果设置为 False,则这些坏行将会被删除

    warn_bad_linesboolean, 默认为 True

    • 如果 error_bad_lines=Falsewarn_bad_lines=True,每个坏行都会输出一个警告

    2. 指定数据列的类型

    您可以指示整个 DataFrame 或各列的数据类型

    In [9]: import numpy as np
    In [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11"
    In [11]: print(data)
    a,b,c,d
    1,2,3,4
    5,6,7,8
    9,10,11
    In [12]: df = pd.read_csv(StringIO(data), dtype=object)
    In [13]: df
    Out[13]: 
       a   b   c    d
    0  1   2   3    4
    1  5   6   7    8
    2  9  10  11  NaN
    In [14]: df["a"][0]
    Out[14]: '1'
    In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"})
    In [16]: df.dtypes
    Out[16]: 
    a      int64
    b     object
    c    float64
    d      Int64
    dtype: object
    登入後複製

    你可以使用 read_csv()converters 参数,统一某列的数据类型

    In [17]: data = "col_1\n1\n2\n'A'\n4.22"
    In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str})
    In [19]: df
    Out[19]: 
      col_1
    0     1
    1     2
    2   'A'
    3  4.22
    In [20]: df["col_1"].apply(type).value_counts()
    Out[20]: 
    <class &#39;str&#39;>    4
    Name: col_1, dtype: int64
    登入後複製

    或者,您可以在读取数据后使用 to_numeric() 函数强制转换类型

    In [21]: df2 = pd.read_csv(StringIO(data))
    In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce")
    In [23]: df2
    Out[23]: 
       col_1
    0   1.00
    1   2.00
    2    NaN
    3   4.22
    In [24]: df2["col_1"].apply(type).value_counts()
    Out[24]: 
    <class &#39;float&#39;>    4
    Name: col_1, dtype: int64
    登入後複製

    它将所有有效的数值转换为浮点数,而将无效的解析为 NaN

    最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为 NaN,那么 to_numeric() 可能是您的最佳选择。

    然而,如果您想要强制转换所有数据,而无论类型如何,那么使用 read_csv()converters 参数会更好

    注意

    在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。

    如果您依赖 pandas 来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。

    In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000))
    In [26]: df = pd.DataFrame({"col_1": col_1})
    In [27]: df.to_csv("foo.csv")
    In [28]: mixed_df = pd.read_csv("foo.csv")
    In [29]: mixed_df["col_1"].apply(type).value_counts()
    Out[29]: 
    <class &#39;int&#39;>    737858
    <class &#39;str&#39;>    262144
    Name: col_1, dtype: int64
    In [30]: mixed_df["col_1"].dtype
    Out[30]: dtype(&#39;O&#39;)
    登入後複製

    这就导致 mixed_df 对于列的某些块包含 int 类型,而对于其他块则包含 str,这是由于读取的数据是混合类型。

    以上是Python資料處理pandas中使用CSV作為IO工具的讀寫操作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

    本網站聲明
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

    熱AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智慧驅動的應用程序,用於創建逼真的裸體照片

    AI Clothes Remover

    AI Clothes Remover

    用於從照片中去除衣服的線上人工智慧工具。

    Undress AI Tool

    Undress AI Tool

    免費脫衣圖片

    Clothoff.io

    Clothoff.io

    AI脫衣器

    Video Face Swap

    Video Face Swap

    使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

    熱工具

    記事本++7.3.1

    記事本++7.3.1

    好用且免費的程式碼編輯器

    SublimeText3漢化版

    SublimeText3漢化版

    中文版,非常好用

    禪工作室 13.0.1

    禪工作室 13.0.1

    強大的PHP整合開發環境

    Dreamweaver CS6

    Dreamweaver CS6

    視覺化網頁開發工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神級程式碼編輯軟體(SublimeText3)

    熱門話題

    Java教學
    1655
    14
    CakePHP 教程
    1413
    52
    Laravel 教程
    1306
    25
    PHP教程
    1252
    29
    C# 教程
    1226
    24
    PHP和Python:解釋了不同的範例 PHP和Python:解釋了不同的範例 Apr 18, 2025 am 12:26 AM

    PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

    在PHP和Python之間進行選擇:指南 在PHP和Python之間進行選擇:指南 Apr 18, 2025 am 12:24 AM

    PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

    PHP和Python:深入了解他們的歷史 PHP和Python:深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

    PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

    Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

    Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

    sublime怎麼運行代碼python sublime怎麼運行代碼python Apr 16, 2025 am 08:48 AM

    在 Sublime Text 中運行 Python 代碼,需先安裝 Python 插件,再創建 .py 文件並編寫代碼,最後按 Ctrl B 運行代碼,輸出會在控制台中顯示。

    vscode在哪寫代碼 vscode在哪寫代碼 Apr 15, 2025 pm 09:54 PM

    在 Visual Studio Code(VSCode)中編寫代碼簡單易行,只需安裝 VSCode、創建項目、選擇語言、創建文件、編寫代碼、保存並運行即可。 VSCode 的優點包括跨平台、免費開源、強大功能、擴展豐富,以及輕量快速。

    vs code 可以在 Windows 8 中運行嗎 vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

    VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

    notepad 怎麼運行python notepad 怎麼運行python Apr 16, 2025 pm 07:33 PM

    在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

    See all articles