보통 우리는 요청 라이브러리를 사용하여 다운로드합니다. 이 라이브러리는 사용하기 매우 편리합니다.
다음 스트리밍 코드를 사용하면 다운로드한 파일의 크기에 관계없이 Python 메모리 사용량이 증가하지 않습니다.
def download_file(url): local_filename = url.split('/')[-1] # 注意传入参数 stream=True with requests.get(url, stream=True) as r: r.raise_for_status() with open(local_filename, 'wb') as f: for chunk in r.iter_content(chunk_size=8192): f.write(chunk) return local_filename
청크 인코딩이 필요한 경우 Chunk_size 매개변수를 전달하면 안 되며, if 판단이 있습니다.
def download_file(url): local_filename = url.split('/')[-1] # 注意传入参数 stream=True with requests.get(url, stream=True) as r: r.raise_for_status() with open(local_filename, 'w') as f: for chunk in r.iter_content(): if chunk: f.write(chunk.decode("utf-8")) return local_filename
iter_content[1] 함수 자체도 디코딩할 수 있습니다. decode_unicode = True 매개변수를 전달하면 됩니다. 또한, 공식 계정 상단 파이썬 배경을 검색해 "Advanced"라고 답하시면 깜짝 선물 패키지를 받아보실 수 있습니다.
iter_content를 사용하여 반환된 바이트 수는 정확히 Chunk_size가 아니며 일반적으로 더 크고 각 반복마다 달라질 것으로 예상되는 임의의 숫자입니다.
Response.raw[2] 및 shutil.copyfileobj[3]
import requests import shutil def download_file(url): local_filename = url.split('/')[-1] with requests.get(url, stream=True) as r: with open(local_filename, 'wb') as f: shutil.copyfileobj(r.raw, f) return local_filename
을 사용하면 메모리를 너무 많이 사용하지 않고 파일을 디스크로 스트리밍할 수 있으며 코드가 더 깔끔해집니다.
참고: 문서에 따르면 Response.raw는 디코딩되지 않으므로 필요한 경우 r.raw.read 방법을 수동으로 바꿀 수 있습니다.
response.raw.read = functools.partial(response.raw.read, decode_content=True)
방법 2가 더 빠릅니다. 방법 1이 2-3MB/s인 경우 방법 2는 거의 40MB/s에 도달할 수 있습니다.
[1]iter_content: https://requests.readthedocs.io/en/latest/api/#requests.Response.iter_content
[2]Response.raw: https : //requests.readthedocs.io/en/latest/api/#requests.Response.raw
[3]shutil.copyfileobj: https://docs.python.org/3/library/shutil. #shutil.copyfileobj
위 내용은 Python은 대용량 파일을 다운로드하는데 어떤 방법이 더 빠릅니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!