Python 파일 읽기 작업에 대한 자세한 소개
이 기사는 Python 파일 읽기 작업에 대한 자세한 소개를 제공합니다. 이는 특정 참조 가치가 있으므로 도움이 될 수 있습니다.
파일 읽기 작업 단계
코끼리를 냉장고에 넣는 단계를 묻는 수수께끼가 있습니다. 대답은 매우 간단합니다. 냉장고를 열고, 코끼리를 밀어넣고, 냉장고를 닫으세요. 이는 문제를 해결하기 위한 아이디어입니다. 파일에 대한 작업은 동일합니다. 첫 번째 단계는 파일을 처리하는 것입니다(읽기 또는 쓰기). 어때요? 실제로는 매우 간단합니다. 파일 작업에 대해 자세히 이야기해 보겠습니다.
파일 열기
open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)
파일을 열려면 open() 함수를 사용해야 합니다. 초기에는 ()에 관련된 매개변수인 파일, 모드 세 가지만 알면 됩니다. , 인코딩
file
먼저 파일 이름, 유형은 경로를 포함한 문자열입니다. 열려는 파일이 현재 파일과 동일한 디렉터리에 있는 경우 경로(상대 경로)는 다음과 같습니다. 생략됩니다.
mode
파일이 열립니다. 모드, 형식은 다음과 같습니다: mode='mode', 여기에서 "mode="는 생략할 수 있습니다. 모드가 지정되지 않은 경우에는 모드를 직접 작성하면 됩니다. 기본은 r입니다. 특정 모드는 다음과 같습니다.
의사 명사 - 포인터가 여기에 도입되었습니다. Word에서 텍스트를 편집할 때 커서가 있다고 상상해 보세요. 포인터를 파일에 대한 모든 작업이 시작되는 커서로 생각할 수 있습니다.
r 只读。文件的初始指针在文件的开头。这是默认模式。 rb 只读的二进制格式。文件的初始指针在文件的开头。 r+ 读写。文件的初始指针在文件的开头。 rb+ 读写的二进制格式。文件的初始指针在文件的开头。 w 只写。如果该文件已存在则打开文件,清空文件内容。如果该文件不存在,则创建新文件。 wb 只写的二进制格式。如果该文件已存在则打开文件,清空文件内容。如果该文件不存在,创建新文件。 w+ 写读。如果该文件已存在则打开文件,清空文件内容。如果该文件不存在,创建新文件。 wb+ 写读的二进制格式。如果该文件已存在则打开文件,清空文件内容。如果该文件不存在,创建新文件。 a 追加写。如果该文件存在,文件的初始指针在文件的结尾。新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 ab 追加写的二进制格式。如果该文件存在,文件的初始指针在文件的结尾。新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 a+ 追加写读。如果该文件已存在,文件的初始指针在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。 ab+ 追加写读的二进制格式。如果该文件已存在,文件的初始指针在文件的结尾。如果该文件不存在,创建新文件用于读写。
encoding
세 번째 매개변수는 파일의 인코딩입니다(비바이너리 형식으로 사용됨). 인코딩 설정은 열려는 파일의 인코딩과 일치해야 합니다. 그렇지 않으면 오류가 보고됩니다. 즉, 소스 파일에 어떤 인코딩이 사용됩니까? 쓰기를 위해서는 파일을 열 때 해당 인코딩을 사용해야 합니다.
파일 처리 중
실시할 작업은 "test"라는 파일을 여는 것입니다. 원래 파일 인코딩은 utf-8이고 열 때 gbk 인코딩을 사용했습니다.
문서에는 단 하나의 문장이 있습니다. 열 걸음에 한 사람을 죽이고 천 마일 동안 흔적을 남기지 마십시오.
코드는 다음과 같습니다.
file = open('test','r',encoding='gbk') content = file.read() print(content) file.close()
open 함수에서 반환한 결과는 파일 객체이므로 변수를 사용하여 파일(파일)을 받아야 합니다.
file.read(), file.write, file.flush() 등과 같은 이 객체의 메소드입니다.
read()는 파일 객체의 메소드로, 그렇지 않은 경우 지정된 수의 문자를 읽는 것입니다. 지정하면 기본적으로 모든 내용을 읽습니다.
그러나 위 코드를 실행하면 오류가 보고됩니다. 다음은 오류 메시지입니다. 일반적인 아이디어는 gbk 인코딩을 디코딩할 수 없다는 것입니다(파일을 여는 과정은 실제로는 디코딩 프로세스)
--------------------------------------------------------------------------- UnicodeDecodeError Traceback (most recent call last) <ipython-input-78-bb879f008680> in <module>() 4 #这里说明以下,open函数返回的结果是一个文件对象,所以要用一个变量接收一下(file),这样我们就可以方便地使用这个 5 #对象的方法了,比如file.read(),file.write,file.flush()等等 ----> 6 content = file.read()#read()是文件对象的一个方法,作用是读取指定的字符数,如果未指定则默认读取所有内容 7 print(content) 8 file.close() UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 4: illegal multibyte sequence
해결 방법은 매우 간단합니다. Linux 시스템의 기본 인코딩은 UTF-8이므로 인코딩을 생략할 수 있고, 우리는 단지 읽기를 원하기 때문에 인코딩 방법을 utf-8로 변경하면 됩니다. 해당 파일에는 모드가 r이고, 기본 모드가 r이므로 생략 가능하고 쓸 수 없습니다.
그러면 코드는 다음과 같습니다.
file = open('test') content = file.read() print(content) file.close() 输出为: 十步杀一人,千里不留行
읽을 문자 수를 지정하는 read() 메소드에 숫자 매개변수를 추가할 수도 있습니다. 한자든 문자든 한 글자는 한 글자에 해당합니다. 문자나 한자여야 하며, 예시는 다음과 같습니다.
file = open('test') content = file.read(3) print(content) file.close() 输出为: 十步杀
파일을 여는 방법은 마지막에 파일을 닫는 문을 작성해야 했기 때문에 더 번거롭습니다. 간단한 방법, 형식은 다음과 같습니다.
with open() as file_name: 操作代码......
사용 이 방법의 장점은 파일을 닫는 명령문을 작성할 필요가 없다는 것입니다. 키워드와 마찬가지로 형식만 기억하면 됩니다.
다음으로 바이너리로 파일을 만듭니다. format
with open('二进制','wb') as file: file.write('十步杀一人,千里不留行'.encode('utf8'))
파일을 여는 방식이 바이너리 형식으로 열리니까 그렇죠 그러면 파일을 쓸 때 바이너리 형식의 문자열을 써야 하는데 "Kill one person in ten"이라는 문자열의 바이너리 형식은 무엇인가요? 천 마일을 걸어도 흔적을 남기지 말라"고? 우리는 모르기 때문에 .encode(utf8)를 사용하여 이 문자열을 바이너리 형식으로 변환합니다. 실제로 다른 코드를 통해 이 문자열에 해당하는 바이너리 형식을 알 수 있습니다.
print('十步杀一人,千里不留行'.encode('utf8')) 输出的二进制格式(表现形式为16进制,为什么?因为二进制太长了啊!!!)为: b'\xe5\x8d\x81\xe6\xad\xa5\xe6\x9d\x80\xe4\xb8\x80\xe4\xba\xba\xef\xbc\x8c\xe5\x8d\x83\xe9\x87\x8c\xe4\xb8\x8d\xe7\x95\x99\xe8\xa1\x8c'
在实际中我们当然不可能写这么长的东西,所以我们使用.encode('utf8')来转化。转化时我们使用了utf-8的编码方式。
在这里说明一下为什么要编码,想弄清楚这件事就要明白计算机的存储原理。
简单地讲,文件在计算机中都是以二进制格式存储的,对于计算机来讲只有两个数字有意义,那就是0和1,也就是二进制,而不同的0和1的组合代表不同的含义(编码不同),比如在gbk编码下一个汉字由两个字节表示,也就是16位二进制数(16个0和1的组合),而在utf-8编码下一个汉字由3个字节表示,也就是24位二进制数(24个0和1的组合),而我们现在要给计算机存储的就是0和1的组合,那么在读取文件或者转化字符串时,如果你不告诉计算机你使用的是哪种编码的话,计算机怎么可能知道这些0和1的组合代表什么含义呢?所以从计算机取出数据或者把普通字符串转化成二进制格式时你必须告诉计算机你使用的是什么编码方式。
在本例中使用utf-8编码,所以在字符串后面加上.encode(utf8)
那么为什么平时可以直接写入普通字符串呢?那是因为在用open()函数打开文件的时候就已经指定了编码方式。
形象地解释:open函数相当于打开了一种通道,平时打开时都是用某种编码的方式打开的,所以我们在写入内容时不必管它以什么编码进入通道的(因为在open函数里面就已经指定了编码方式)
而当open函数使用二进制格式打开时(就是带b的模式),这个通道就没有指定编码方式,通道里面只有二进制,所以此时往通道里面放入非二进制格式内容的话就需要指定一种编码方式。除非你直接在file.write()函数中直接写二进制,但是人类是不可能记住那么多二进制组合所代表的含义的。
然后我们来读取一下上面创建的名字为“二进制”的这个文件
with open('二进制','rb') as file: print('不指定解码方式时的结果:',file.read())
如果我们在读取时不指定解码方式,那么输出的结果就是下面这种人类无法理解的奇怪的东西(实际上它是用16进制表示的二进制)
不指定解码方式时的结果: b'\xe5\x8d\x81\xe6\xad\xa5\xe6\x9d\x80\xe4\xb8\x80\xe4\xba\xba\xef\xbc\x8c\xe5\x8d\x83\xe9\x87\x8c\xe4\xb8\x8d\xe7\x95\x99\xe8\xa1\x8c'
所以我们在读取时也要指定编码:
with open('二进制','rb') as file: content = file.read() print('指定解码方式后的结果:',content.decode('utf-8')) 指定解码方式后的结果: 十步杀一人,千里不留行
其他的在读取时可能用到的方法:
readline()读取一行,如果里面添加了参数n,则会读取n个字符(我觉得这是个bug,貌似没什么卵用) readlines()读取所有内容,结果返回一个列表,元素由每一行组成。 tell()会输出当前指针的位置,注意,该位置是以字节来计算的,不是字符 seek()重新指定指针位置。
使用readlines()并不是一个好方法,因为是一次性将文件都读取到内存中,如果文件较大时则造成内存溢出,实际中使用下面的方法,系统会自动生成一个迭代器,用迭代的方法把需要的数据取出来。
with open('libai') as f: for i in f: #这里的i实际就是迭代后的每一行,用for循环的方式从文件对象中取出来,取一行读一行,节省内存 print(i)
赵客缦胡缨,吴钩霜雪明。银鞍照白马,飒沓如流星。 十步杀一人,千里不留行。事了拂衣去,深藏身与名。 闲过信陵饮,脱剑膝前横。将炙啖朱亥,持觞劝侯嬴。 三杯吐然诺,五岳倒为轻。眼花耳热后,意气素霓生。 救赵挥金锤,邯郸先震惊。千秋二壮士,烜赫大梁城。 纵死侠骨香,不惭世上英。谁能书阁下,白首太玄经。
关闭文件
如果用with open() 来打开文件的话就不用管关闭文件的操作了,因为Python已经帮你完成了这一步,否则必须在处理文件之后加上关闭文件的操作:file_name.close()
위 내용은 Python 파일 읽기 작업에 대한 자세한 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

VS 코드는 Windows 8에서 실행될 수 있지만 경험은 크지 않을 수 있습니다. 먼저 시스템이 최신 패치로 업데이트되었는지 확인한 다음 시스템 아키텍처와 일치하는 VS 코드 설치 패키지를 다운로드하여 프롬프트대로 설치하십시오. 설치 후 일부 확장은 Windows 8과 호환되지 않을 수 있으며 대체 확장을 찾거나 가상 시스템에서 새로운 Windows 시스템을 사용해야합니다. 필요한 연장을 설치하여 제대로 작동하는지 확인하십시오. Windows 8에서는 VS 코드가 가능하지만 더 나은 개발 경험과 보안을 위해 새로운 Windows 시스템으로 업그레이드하는 것이 좋습니다.

VS 코드 확장은 악의적 인 코드 숨기기, 취약성 악용 및 합법적 인 확장으로 자위하는 등 악성 위험을 초래합니다. 악의적 인 확장을 식별하는 방법에는 게시자 확인, 주석 읽기, 코드 확인 및주의해서 설치가 포함됩니다. 보안 조치에는 보안 인식, 좋은 습관, 정기적 인 업데이트 및 바이러스 백신 소프트웨어도 포함됩니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

vs 코드에서는 다음 단계를 통해 터미널에서 프로그램을 실행할 수 있습니다. 코드를 준비하고 통합 터미널을 열어 코드 디렉토리가 터미널 작업 디렉토리와 일치하는지 확인하십시오. 프로그래밍 언어 (예 : Python의 Python Your_file_name.py)에 따라 실행 명령을 선택하여 성공적으로 실행되는지 여부를 확인하고 오류를 해결하십시오. 디버거를 사용하여 디버깅 효율을 향상시킵니다.
