당면 문제는 Python과 urllib 모듈을 사용하여 웹툰을 지정된 폴더에 다운로드하는 것과 관련이 있습니다. 초기 시도에서는 파일이 로컬에 저장되지 않고 캐시된 것처럼 보이는 문제가 발생했습니다. 또한, 새로운 만화의 존재 여부를 판단하는 방법도 해결해야 했습니다.
올바른 파일 검색
원본 코드는 urllib.URLopener()를 활용하여 이미지를 검색했습니다. . 그러나 이 작업에 더 적합한 함수는 urllib.urlretrieve()입니다. 이미지를 단순히 캐싱하는 것이 아니라 지정된 위치에 직접 저장하는 기능입니다.
만화 개수 확인
웹사이트에 있는 만화의 개수를 확인하고 해당 만화만 다운로드하는 기능입니다. 최신 버전에서는 스크립트가 웹사이트의 HTML 콘텐츠를 구문 분석할 수 있습니다. 다음은 BeautifulSoup 라이브러리를 사용하는 기술입니다.
import bs4 url = "http://www.gunnerkrigg.com//comics/" html = requests.get(url).content soup = bs4.BeautifulSoup(html, features='lxml') comic_list = soup.find('select', {'id': 'comic-list'}) comic_count = len(comic_list.find_all('option'))
전체 스크립트
이미지 다운로드와 만화 개수 논리를 결합한 다음 스크립트는 웹툰 다운로드 프로세스를 간소화합니다.
import urllib.request import bs4 def download_comics(url, path): """ Downloads webcomics from the given URL to the specified path. """ # Determine the comic count html = requests.get(url).content soup = bs4.BeautifulSoup(html, features='lxml') comic_list = soup.find('select', {'id': 'comic-list'}) comic_count = len(comic_list.find_all('option')) # Download the comics for i in range(1, comic_count + 1): comic_url = url + str(i) + '.jpg' comic_name = str(i) + '.jpg' urllib.request.urlretrieve(comic_url, os.path.join(path, comic_name)) url = "http://www.gunnerkrigg.com//comics/" path = "/file" download_comics(url, path)
위 내용은 Python으로 웹툰을 다운로드하는 방법: urllib 및 BeautifulSoup?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!