Python 데이터 처리 팬더에서 읽기 및 쓰기 작업을 위한 IO 도구로 CSV 사용
Preface
pandas
의 IO
API
는 최상위 reader
세트입니다. > 함수. 예를 들어 pandas.read_csv()
는 pandas
객체를 반환합니다. pandas
的 IO
API
是一组顶层的 reader
函数,比如 pandas.read_csv()
,会返回一个 pandas
对象。
而相应的 writer
函数是对象方法,如 DataFrame.to_csv()
。
注意:后面会用到 StringIO
,请确保导入
# python3 from io import StringIO # python2 from StringIO import StringIO
1 CSV 和文本文件
读取文本文件的主要函数是 read_csv()
1 参数解析
read_csv()
接受以下常用参数:
1.1 基础
filepath_or_buffer
: 变量
可以是文件路径、文件
URL
或任何带有read()
函数的对象
sep
: str
,默认 ,
,对于 read_table
是 t
文件分隔符,如果设置为
None
,则C
引擎无法自动检测分隔符,而Python
引擎可以通过内置的嗅探器工具自动检测分隔符。此外,如果设置的字符长度大于
1
,且不是's+'
,那么该字符串会被解析为正则表达式,且强制使用Python
解析引擎。例如
'\r\t'
,但是正则表达式容易忽略文本中的引用数据。
delimiter
: str
, 默认为 None
sep
的替代参数,功能一致
1.2 列、索引、名称
header
: int
或 list
, 默认为 'infer'
用作列名的行号,默认行为是对列名进行推断:
如果未指定
names
参数其行为类似于header=0
,即从读取的第一行开始推断。如果设置了
names
,则行为与header=None
相同。也可以为
header
设置列表,表示多级列名。如[0,1,3]
,未指定的行(这里是2
)将会被跳过,如果skip_blank_lines=True
,则会跳过空行和注释的行。因此header=0
并不是代表文件的第一行
names
: array-like
, 默认为 None
需要设置的列名列表,如果文件中不包含标题行,则应显式传递
header=None
,且此列表中不允许有重复值。
index_col
: int
, str
, sequence of int/str
, False
, 默认为 None
用作
DataFrame
的索引的列,可以字符串名称或列索引的形式给出。如果指定了列表,则使用MultiIndex
注意:
index_col=False
可用于强制pandas
不要将第一列用作索引。例如,当您的文件是每行末尾都带有一个分隔符的错误文件时。
usecols
: 列表或函数, 默认为 None
只读取指定的列。如果是列表,则所有元素都必须是位置(即文件列中的整数索引)或字符串,这些字符串必须与
names
参数提供的或从文档标题行推断出的列名相对应。列表中的顺序会被忽略,即
usecols=[0, 1]
等价于[1, 0]
如果是可调用函数,将会根据列名计算,返回可调用函数计算为
True
的名称
In [1]: import pandas as pd In [2]: from io import StringIO In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [4]: pd.read_csv(StringIO(data)) Out[4]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"]) Out[5]: col1 col3 0 a 1 1 a 2 2 c 3
使用此参数可以大大加快解析时间并降低内存使用
squeeze
: boolean
, 默认为 False
如果解析的数据只包含一列,那么返回一个
Series
prefix
: str
, 默认为 None
当没有标题时,添加到自动生成的列号的前缀,例如
'X'
表示X0
,X1
...
mangle_dupe_cols
: boolean
, 默认为 True
writer
함수는 DataFrame.to_csv()
와 같은 객체 메서드입니다. 🎜🎜참고: StringIO
는 나중에 사용됩니다. 🎜In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [7]: pd.read_csv(StringIO(data)) Out[7]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0) Out[8]: col1 col2 col3 0 a b 2
read_csv()
입니다. 🎜< h4>1 매개변수 분석🎜read_csv()
는 다음과 같은 공통 매개변수를 허용합니다.🎜1.1 기본
🎜filepath_or_buffer
: 변수🎜 - 🎜파일 경로, 파일
URL
또는read()
함수가 있는 모든 개체가 될 수 있습니다🎜 li>🎜 🎜sep
:str
, 기본값,
,read_table
의 경우t</code >🎜<ul class=" list-paddingleft-2"><li>🎜파일 구분 기호, <code>None
으로 설정하면C
엔진이 자동으로 구분 기호를 감지할 수 없습니다.Python
엔진은 내장된 스니퍼 도구를 통해 구분 기호를 자동으로 감지할 수 있습니다. 🎜 - 🎜또한 설정된 문자 길이가
1
보다 크고's+'
가 아닌 경우 문자열은 다음과 같이 구문 분석됩니다. 정규 표현식 및Python
구문 분석 엔진이 강제로 사용됩니다. 🎜 - 🎜예를 들어
'\r\t'
이지만 정규 표현식은 텍스트의 참조 데이터를 무시하는 경향이 있습니다. 🎜 🎜🎜 - 🎜
sep
대체 매개변수, 함수는 동일🎜 🎜 - 🎜행 번호는 다음과 같이 사용됩니다. 열 이름, 기본 동작은 열 이름을 유추하는 것입니다: 🎜
- 🎜
names
매개변수가 지정되지 않으면 다음과 같이 작동합니다.header =0
처럼 읽은 첫 번째 줄부터 시작한다는 의미입니다. 🎜 - 🎜
names
가 설정된 경우 동작은header=None
과 동일합니다. 🎜 🎜 - 🎜다단계 열 이름을 나타내기 위해
헤더
목록을 설정할 수도 있습니다. 예를 들어[0,1,3]
, 지정되지 않은 줄(여기서는2
)이skip_blank_lines=True
인 경우 빈 줄과 주석이 달린 줄은 건너뜁니다. 따라서header=0
는 파일🎜 🎜🎜 - 🎜설정해야 하는 열 이름 목록입니다. 파일에 헤더 행이 포함되어 있지 않으면
header =None<은 명시적으로 /code>로 전달되어야 하며, 이 목록에는 중복된 값이 허용되지 않습니다. 🎜</li>🎜🎜<code>index_col
:int
,str
,int/str 시퀀스
,False
, 기본값은None
🎜- 🎜
DataFrame
의 인덱스로 사용되는 열, 문자열 이름이나 열 인덱스로 제공되는 문자일 수 있습니다. 목록이 지정된 경우MultiIndex
🎜 - 🎜를 사용하세요. 참고:
index_col=False
를 사용하면pandas
가 목록을 지정하지 않도록 강제할 수 있습니다. to One 열이 인덱스로 사용됩니다. 예를 들어 파일이 각 줄 끝에 구분 기호가 있는 잘못된 파일인 경우입니다. 🎜 🎜🎜 - 🎜읽기 전용 지정됨 열. 목록인 경우 모든 요소는 위치(예: 파일 열에 대한 정수 인덱스)이거나
names
매개변수에 의해 제공되거나 문서 헤더 행에서 추론된 열 이름과 일치하는 문자열이어야 합니다. 🎜 - 🎜목록의 순서는 무시됩니다. 즉,
usecols=[0, 1]
은[1, 0]
과 동일합니다. 🎜 li> - 🎜호출 가능 함수인 경우 열 이름을 기준으로 계산되며,
True
로 계산된 호출 가능 함수 이름이 반환됩니다🎜 🎜 - 🎜파싱된 데이터에 열이 하나만 포함된 경우
시리즈
🎜 🎜🎜 - 🎜 제목이 없는 경우 자동 생성된 제목에 접두어가 추가됩니다.
'X'
와 같은 열 번호는X0
,X1
...🎜 🎜🎜 重复的列将被指定为
'X'
,'X.1'
…'X.N'
,而不是'X'
... 。如果在列中有重复的名称,传递False
将导致数据被覆盖数据或列的数据类型。例如。
{'a':np.float64,'b':np.int32}
要使用的解析器引擎。
C
引擎更快,而Python
引擎目前功能更完整用于在某些列中对值进行转换的函数字典。键可以是整数,也可以是列名
数据值解析为
True
数据值解析为
False
跳过分隔符之后的空格
在文件开头要跳过的行号(索引为
0
)或要跳过的行数如果可调用函数,则对索引应用函数,如果返回
True
,则应跳过该行,否则返回False
需要跳过文件末尾的行数(不支持
C
引擎)要读取的文件行数,对于读取大文件很有用
如果为
filepath_or_buffer
参数指定了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何I/O
开销需要转换为
NA
值的字符串解析数据时是否包含默认的
NaN
值。根据是否传入na_values
,其行为如下keep_default_na=True
, 且指定了na_values
,na_values
将会与默认的NaN
一起被解析keep_default_na=True
, 且未指定na_values
, 只解析默认的NaN
keep_default_na=False
, 且指定了na_values
, 只解析na_values
指定的NaN
keep_default_na=False
, 且未指定na_values
, 字符串不会被解析为NaN
检测缺失值标记(空字符串和
na_values
的值)。在没有任何NA
的数据中,设置na_filter=False
可以提高读取大文件的性能如果为
True
,则跳过空行,而不是解释为NaN
值如果为
True
-> 尝试解析索引如果为
[1, 2, 3]
-> 尝试将1, 2, 3
列解析为分隔的日期如果为
[[1, 3]]
-> 将1, 3
列解析为单个日期列如果为
{'foo': [1, 3]}
-> 将1, 3
列作为日期并设置列名为foo
如果设置为
True
且设置了parse_dates
,则尝试推断datetime
格式以加快处理速度用于将字符串序列转换为日期时间实例数组的函数。默认使用
dateutil.parser.parser
进行转换,pandas
将尝试以三种不同的方式调用date_parser
传递一个或多个数组(
parse_dates
定义的列)作为参数;将
parse_dates
定义的列中的字符串值连接到单个数组中,并将其传递;使用一个或多个字符串(对应于
parse_dates
定义的列)作为参数,对每一行调用date_parser
一次。DD/MM
格式的日期如果为
True
,则使用唯一的、经过转换的日期缓存来应用datetime
转换。在解析重复的日期字符串,特别是带有时区偏移量的日期字符串时,可能会显著提高速度。
返回
TextFileReader
对象以进行迭代或使用get_chunk()
来获取块用于对磁盘数据进行即时解压缩。如果为
"infer"
,则如果filepath_or_buffer
是文件路径且以".gz"
,".bz2"
,".zip"
或".xz"
结尾,则分别使用gzip
,bz2
,zip
或xz
解压,否则不进行解压缩。如果使用
"zip"
,则ZIP
文件必须仅包含一个要读取的数据文件。设置为None
表示不解压也可以使用字典的方式,键为
method
的值从{'zip', 'gzip', 'bz2'}
中选择。例如数值在千位的分隔符
小数点
指定
C
引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为None
,高精度转换器的选项为high
,双向转换器的选项为round_trip
。用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略
用于跳过该字符开头的行,例如,如果
comment='#'
,将会跳过#
开头的行设置编码格式
默认情况下,字段太多的行(例如,带有太多逗号的
csv
文件)会引发异常,并且不会返回任何DataFrame
。如果设置为
False
,则这些坏行将会被删除如果
error_bad_lines=False
且warn_bad_lines=True
,每个坏行都会输出一个警告
usecols
: 목록 또는 함수, 기본값은None
🎜🎜이 매개변수를 사용하면 구문 분석 시간을 크게 단축하고 메모리 사용량을 줄일 수 있습니다🎜🎜compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}
로그인 후 복사로그인 후 복사squeeze
:boolean
, 기본값은False
🎜접두사
를 반환합니다.str
, 기본값은None
🎜mangle_dupe_cols</code를 의미합니다. >: <code>부울
, 기본값은True
🎜입니다.1.3 常规解析配置
dtype
: 类型名或类型字典(column -> type
), 默认为None
engine
:{'c', 'python'}
converters
:dict
, 默认为None
true_values
:list
, 默认为None
false_values
:list
, 默认为None
skipinitialspace
:boolean
, 默认为False
skiprows
: 整数或整数列表, 默认为None
In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [7]: pd.read_csv(StringIO(data)) Out[7]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0) Out[8]: col1 col2 col3 0 a b 2
로그인 후 복사로그인 후 복사skipfooter
:int
, 默认为0
nrows
:int
, 默认为None
memory_map
:boolean
, 默认为False
1.4 NA 和缺失数据处理
na_values
:scalar
,str
,list-like
,dict
, 默认为None
keep_default_na
:boolean
, 默认为True
注意:如果
na_filter=False
,那么keep_default_na
和na_values
参数将被忽略na_filter
:boolean
, 默认为True
skip_blank_lines
:boolean
, 默认为True
1.5 日期时间处理
parse_dates
: 布尔值、列表或嵌套列表、字典, 默认为False
.infer_datetime_format
: 布尔值, 默认为False
date_parser
: 函数, 默认为None
dayfirst
: 布尔值, 默认为False
cache_dates
: 布尔值, 默认为True
1.6 迭代
iterator
:boolean
, 默认为False
1.7 引用、压缩和文件格式
compression
:{'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}
, 默认为'infer'
compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}
로그인 후 복사로그인 후 복사thousandsstr
, 默认为None
decimal
:str
, 默认为'.'
float_precision
:string
, 默认为None
quotechar
:str
(长度为1
)comment
:str
, 默认为None
encoding
:str
, 默认为None
1.8 错误处理
error_bad_linesboolean
, 默认为True
warn_bad_linesboolean
, 默认为True
2. 指定数据列的类型
您可以指示整个
DataFrame
或各列的数据类型In [9]: import numpy as np In [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11" In [11]: print(data) a,b,c,d 1,2,3,4 5,6,7,8 9,10,11 In [12]: df = pd.read_csv(StringIO(data), dtype=object) In [13]: df Out[13]: a b c d 0 1 2 3 4 1 5 6 7 8 2 9 10 11 NaN In [14]: df["a"][0] Out[14]: '1' In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"}) In [16]: df.dtypes Out[16]: a int64 b object c float64 d Int64 dtype: object
로그인 후 복사你可以使用
read_csv()
的converters
参数,统一某列的数据类型In [17]: data = "col_1\n1\n2\n'A'\n4.22" In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str}) In [19]: df Out[19]: col_1 0 1 1 2 2 'A' 3 4.22 In [20]: df["col_1"].apply(type).value_counts() Out[20]: <class 'str'> 4 Name: col_1, dtype: int64
로그인 후 복사或者,您可以在读取数据后使用
to_numeric()
函数强制转换类型In [21]: df2 = pd.read_csv(StringIO(data)) In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce") In [23]: df2 Out[23]: col_1 0 1.00 1 2.00 2 NaN 3 4.22 In [24]: df2["col_1"].apply(type).value_counts() Out[24]: <class 'float'> 4 Name: col_1, dtype: int64
로그인 후 복사它将所有有效的数值转换为浮点数,而将无效的解析为
NaN
最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为
NaN
,那么to_numeric()
可能是您的最佳选择。然而,如果您想要强制转换所有数据,而无论类型如何,那么使用
read_csv()
的converters
参数会更好注意
在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。
如果您依赖
pandas
来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000)) In [26]: df = pd.DataFrame({"col_1": col_1}) In [27]: df.to_csv("foo.csv") In [28]: mixed_df = pd.read_csv("foo.csv") In [29]: mixed_df["col_1"].apply(type).value_counts() Out[29]: <class 'int'> 737858 <class 'str'> 262144 Name: col_1, dtype: int64 In [30]: mixed_df["col_1"].dtype Out[30]: dtype('O')
로그인 후 복사这就导致
mixed_df
对于列的某些块包含int
类型,而对于其他块则包含str
,这是由于读取的数据是混合类型。위 내용은 Python 데이터 처리 팬더에서 읽기 및 쓰기 작업을 위한 IO 도구로 CSV 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!
- 🎜
구분 기호
: str
, 기본값은 None
🎜1.2 열, 인덱스, 이름
🎜헤더
: int< /code> 또는 <code>list
, 기본값은 'infer'
🎜이름
: 배열과 유사
의 첫 번째 줄을 나타내지 않습니다. 기본값은 다음과 같습니다. None
🎜
핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Golang은 성능과 확장 성 측면에서 Python보다 낫습니다. 1) Golang의 컴파일 유형 특성과 효율적인 동시성 모델은 높은 동시성 시나리오에서 잘 수행합니다. 2) 해석 된 언어로서 파이썬은 천천히 실행되지만 Cython과 같은 도구를 통해 성능을 최적화 할 수 있습니다.

Golang과 Python은 각각 고유 한 장점이 있습니다. Golang은 고성능 및 동시 프로그래밍에 적합하지만 Python은 데이터 과학 및 웹 개발에 적합합니다. Golang은 동시성 모델과 효율적인 성능으로 유명하며 Python은 간결한 구문 및 풍부한 라이브러리 생태계로 유명합니다.

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

Python은 개발 효율에서 C보다 낫지 만 C는 실행 성능이 높습니다. 1. Python의 간결한 구문 및 풍부한 라이브러리는 개발 효율성을 향상시킵니다. 2.C의 컴파일 유형 특성 및 하드웨어 제어는 실행 성능을 향상시킵니다. 선택할 때는 프로젝트 요구에 따라 개발 속도 및 실행 효율성을 평가해야합니다.

개발 환경에서 Python과 JavaScript의 선택이 모두 중요합니다. 1) Python의 개발 환경에는 Pycharm, Jupyternotebook 및 Anaconda가 포함되어 있으며 데이터 과학 및 빠른 프로토 타이핑에 적합합니다. 2) JavaScript의 개발 환경에는 Node.js, VScode 및 Webpack이 포함되어 있으며 프론트 엔드 및 백엔드 개발에 적합합니다. 프로젝트 요구에 따라 올바른 도구를 선택하면 개발 효율성과 프로젝트 성공률이 향상 될 수 있습니다.
