크롤러 기술을 처음 배웠는데, 부끄러운 것들에 대한 백과사전에 크롤링하는 방법에 대한 Zhihu의 농담을 읽고 직접 만들기로 결정했습니다.
목표 달성: 1. Encyclopedia of 당황스러운 것들에 대한 농담을 크롤링
2. 한 번에 한 단락씩 크롤링하고 Enter를 누를 때마다 다음 페이지로 크롤링
기술적 구현: python 구현을 기반으로 Requests 라이브러리, re 라이브러리, bs4 라이브러리의 BeautifulSoup 메소드를 사용하여
구현 주요 내용: 먼저 크롤링 구현에 대한 아이디어를 명확히 하고 본체프레임워크를 구축해 보겠습니다. 첫 번째 단계에서는 먼저 Requests 라이브러리를 사용하여 웹 페이지를 얻는 방법을 작성합니다. 두 번째 단계에서는 bs4 라이브러리의 BeautifulSoup 방법을 사용하여 얻은 웹 페이지 정보를 분석하고 정규 표현식을 사용합니다. 관련 단락 정보를 일치시킵니다. 세 번째 단계는 획득한 정보를 인쇄하는 것입니다. 우리 모두는 메인 함수 를 통해 위의 메소드를 실행합니다.
첫째, 해당 라이브러리를 먼저 가져옵니다
import requests from bs4 import BeautifulSoup import bs4 import re
둘째, 먼저 웹페이지 정보를 가져옵니다
def getHTMLText(url): try: user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = {'User-Agent': user_agent} r = requests.get(url,headers = headers) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return ""
셋, 해당 정보를 r에 넣고 분석합니다
soup = BeautifulSoup(html,"html.parser")
우리에게 필요한 것은 농담의 내용과 게시자입니다. 웹페이지의 소스 코드를 보면 농담의 게시자가
'p', attrs={'class': 'content'}中
농담의 내용은
'p', attrs={'class': 'author clearfix'}中
def fillUnivlist(lis,li,html,count): soup = BeautifulSoup(html,"html.parser") try: a = soup.find_all('p', attrs={'class': 'content'}) ll = soup.find_all('p', attrs={'class': 'author clearfix'})
for sp in a: patten = re.compile(r'<span>(.*?)</span>',re.S) Info = re.findall(patten,str(sp)) lis.append(Info) count = count + 1 for mc in ll: namePatten = re.compile(r'<h2>(.*?)</h2>', re.S) d = re.findall(namePatten, str(mc)) li.append(d)
def printUnivlist(lis,li,count): for i in range(count): a = li[i][0] b = lis[i][0] print ("%s:"%a+"%s"%b)
def input_enter(): input1 = input() if input1 == 'Q': return False else: return True
for 루프를 사용합니다.
def main(): passage = 0 enable = True for i in range(20): mc = input_enter() if mc==True: lit = [] li = [] count = 0 passage = passage + 1 qbpassage = passage print(qbpassage) url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318' a = getHTMLText(url) fillUnivlist(lit, li, a, count) number = fillUnivlist(lit, li, a, count) printUnivlist(lit, li, number) else: break
import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = {'User-Agent': user_agent} r = requests.get(url,headers = headers) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return "" def fillUnivlist(lis,li,html,count): soup = BeautifulSoup(html,"html.parser") try: a = soup.find_all('p', attrs={'class': 'content'}) ll = soup.find_all('p', attrs={'class': 'author clearfix'}) for sp in a: patten = re.compile(r'(.*?)',re.S) Info = re.findall(patten,str(sp)) lis.append(Info) count = count + 1 for mc in ll: namePatten = re.compile(r'(.*?)
', re.S) d = re.findall(namePatten, str(mc)) li.append(d) except: return "" return count def printUnivlist(lis,li,count): for i in range(count): a = li[i][0] b = lis[i][0] print ("%s:"%a+"%s"%b) def input_enter(): input1 = input() if input1 == 'Q': return False else: return True def main(): passage = 0 enable = True for i in range(20): mc = input_enter() if mc==True: lit = [] li = [] count = 0 passage = passage + 1 qbpassage = passage print(qbpassage) url = 'http://www.qiushibaike.com/8hr/page/' + str(qbpassage) + '/?s=4966318' a = getHTMLText(url) fillUnivlist(lit, li, a, count) number = fillUnivlist(lit, li, a, count) printUnivlist(lit, li, number) else: break main()
위 내용은 Python의 크롤러 기술을 이용하여 창피한사전을 크롤링하는 방법에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!