Verwendung von CSV als E/A-Tool für Lese- und Schreibvorgänge in Python-Datenverarbeitungs-Pandas-Python-Tutorial-php.cn

Vorwort

pandass IO API ist ein Satz von Readernder obersten Ebene > Funktionen. Beispielsweise gibt pandas.read_csv() ein pandas-Objekt zurück. pandas 的 IO API 是一组顶层的 reader 函数，比如 pandas.read_csv()，会返回一个 pandas 对象。

而相应的 writer 函数是对象方法，如 DataFrame.to_csv()。

注意：后面会用到 StringIO，请确保导入

# python3
from io import StringIO
# python2
from StringIO import StringIO

Nach dem Login kopieren

1 CSV 和文本文件

读取文本文件的主要函数是 read_csv()

1 参数解析

read_csv() 接受以下常用参数:

1.1 基础

filepath_or_buffer: 变量

可以是文件路径、文件 URL 或任何带有 read() 函数的对象

sep: str，默认 ,，对于 read_table 是 t

文件分隔符，如果设置为 None，则 C 引擎无法自动检测分隔符，而 Python 引擎可以通过内置的嗅探器工具自动检测分隔符。
此外，如果设置的字符长度大于 1，且不是 's+'，那么该字符串会被解析为正则表达式，且强制使用 Python 解析引擎。
例如 '\r\t'，但是正则表达式容易忽略文本中的引用数据。

delimiter: str, 默认为 None

sep 的替代参数，功能一致

1.2 列、索引、名称

header: int 或 list, 默认为 'infer'

用作列名的行号，默认行为是对列名进行推断：

如果未指定 names 参数其行为类似于 header=0，即从读取的第一行开始推断。
如果设置了 names，则行为与 header=None 相同。

也可以为 header 设置列表，表示多级列名。如 [0,1,3]，未指定的行（这里是 2）将会被跳过，如果 skip_blank_lines=True，则会跳过空行和注释的行。因此 header=0 并不是代表文件的第一行

names: array-like, 默认为 None

需要设置的列名列表，如果文件中不包含标题行，则应显式传递 header=None，且此列表中不允许有重复值。

index_col: int, str, sequence of int/str, False, 默认为 None

用作 DataFrame 的索引的列，可以字符串名称或列索引的形式给出。如果指定了列表，则使用 MultiIndex
注意：index_col=False 可用于强制 pandas 不要将第一列用作索引。例如，当您的文件是每行末尾都带有一个分隔符的错误文件时。

usecols: 列表或函数, 默认为 None

只读取指定的列。如果是列表，则所有元素都必须是位置（即文件列中的整数索引）或字符串，这些字符串必须与 names 参数提供的或从文档标题行推断出的列名相对应。
列表中的顺序会被忽略，即 usecols=[0, 1] 等价于 [1, 0]
如果是可调用函数，将会根据列名计算，返回可调用函数计算为 True 的名称

In [1]: import pandas as pd
In [2]: from io import StringIO
In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [4]: pd.read_csv(StringIO(data))
Out[4]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])
Out[5]: 
  col1  col3
0    a     1
1    a     2
2    c     3

Nach dem Login kopieren

使用此参数可以大大加快解析时间并降低内存使用

squeeze: boolean, 默认为 False

如果解析的数据只包含一列，那么返回一个 Series

prefix: str, 默认为 None

当没有标题时，添加到自动生成的列号的前缀，例如 'X' 表示 X0, X1...

mangle_dupe_cols: boolean, 默认为 True

Die entsprechende writer-Funktion ist eine Objektmethode, wie zum Beispiel DataFrame.to_csv(). 🎜🎜Hinweis: StringIO wird später verwendet. Bitte stellen Sie sicher, dass Sie 🎜

In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [7]: pd.read_csv(StringIO(data))
Out[7]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)
Out[8]: 
  col1 col2  col3
0    a    b     2

Nach dem Login kopieren

🎜1 CSV- und Textdateien importieren. 🎜🎜Die Hauptfunktion zum Lesen von Textdateien ist read_csv() 🎜< h4>1 Parameteranalyse🎜read_csv() akzeptiert die folgenden allgemeinen Parameter:🎜

1.1 Grundlagen

🎜filepath_or_buffer: Variable🎜

🎜Kann ein Dateipfad, eine Datei-URL oder ein beliebiges Objekt mit einer read()-Funktion sein🎜🎜 🎜sep: str, Standard ,, für read_table ist es t</code >🎜<ul class=" list-paddingleft-2"><li>🎜Dateitrennzeichen, wenn es auf <code>Keine eingestellt ist, kann die C-Engine das Trennzeichen nicht automatisch erkennen Die Python-Engine kann Trennzeichen mithilfe des integrierten Sniffer-Tools automatisch erkennen. 🎜
🎜Wenn außerdem die festgelegte Zeichenlänge größer als 1 ist und nicht 's+' ist, wird die Zeichenfolge als geparst regulärer Ausdruck und die Verwendung der Python-Parsing-Engine wird erzwungen. 🎜
🎜Zum Beispiel '\r\t', aber reguläre Ausdrücke neigen dazu, Referenzdaten im Text zu ignorieren. 🎜

Trennzeichen

str

None

🎜sep alternativer Parameter, die Funktion ist die gleiche🎜

1.2 Spalte, Index, Name

header

int< /code> oder <code>list

'infer'

🎜Die Zeilennummer, die als verwendet wird der Spaltenname. Das Standardverhalten besteht darin, Spaltennamen abzuleiten: 🎜

🎜Wenn der Parameter names nicht angegeben ist, verhält er sich wie header =0, was bedeutet, dass mit der ersten gelesenen Zeile begonnen wird. 🎜
🎜Wenn names gesetzt ist, ist das Verhalten das gleiche wie bei header=None. 🎜
🎜Sie können auch eine Liste für header festlegen, um mehrstufige Spaltennamen darzustellen. Beispiel: [0,1,3], nicht spezifizierte Zeilen (hier 2) werden übersprungen. Wenn skip_blank_lines=True, leere Zeilen und kommentierte Zeilen werden übersprungen. Daher stellt header=0 nicht die erste Zeile der Datei dar🎜

names

array-like

Keine

🎜Die Liste der Spaltennamen, die festgelegt werden müssen. Wenn die Datei keine Kopfzeile enthält, header =None< sollte explizit /code> übergeben werden, und in dieser Liste sind keine doppelten Werte zulässig. 🎜</li>🎜🎜<code>index_col: int, str, sequence of int/str, Falsch, der Standardwert ist None🎜
- 🎜Die Spalte, die als Index von DataFrame verwendet wird, Dies können Zeichen sein, die als Zeichenfolgenname oder Spaltenindex angegeben werden. Wenn eine Liste angegeben ist, verwenden Sie MultiIndex🎜
- 🎜Hinweis: index_col=False kann verwendet werden, um pandas nicht zu erzwingen bis Eine Spalte wird als Index verwendet. Wenn es sich bei Ihrer Datei beispielsweise um eine fehlerhafte Datei mit einem Trennzeichen am Ende jeder Zeile handelt. 🎜