눈에 보이는 웹페이지 콘텐츠를 효과적으로 스크랩하는 방법 웹 스크래핑에는 웹페이지에서 특정 데이터를 추출하는 작업이 포함되지만 결과를 제한하는 것은 어려울 수 있습니다. 보이는 텍스트에만. 인기 있는 웹 스크래핑 라이브러리인 BeautifulSoup은 이 프로세스를 단순화합니다. 문제 이해 눈에 보이는 텍스트를 스크레이핑하려면 스크립트( ), 주석(<!-- -->), CSS(<style>) 및 기타 표시되지 않는 content.</p> <p><strong>BeautifulSoup을 사용한 솔루션</strong></p> <p>다음은 BeautifulSoup의 findAll() 메소드와 사용자 정의 필터를 사용하는 간단한 솔루션입니다.</p> <div class="code" style="position:relative; padding:0px; margin:0px;"><pre>from bs4 import BeautifulSoup from bs4.element import Comment from urllib.request import urlopen def tag_visible(element): if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']: return False if isinstance(element, Comment): return False return True def text_from_html(body): soup = BeautifulSoup(body, 'html.parser') texts = soup.findAll(text=True) visible_texts = filter(tag_visible, texts) return " ".join(t.strip() for t in visible_texts) html = urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read() print(text_from_html(html))</pre><div class="contentsignin">로그인 후 복사</div></div> <p><strong>설명</strong></p> <p> 코드:</p> <ul> <li>원치 않는 태그와 주석을 제외하는 tag_visible() 함수를 정의합니다.</li> <li>filter()를 사용하여 tag_visible() 함수를 다음에서 발견된 모든 텍스트 요소(텍스트)에 적용합니다. BeautifulSoup 개체.</li> <li>표시되는 텍스트를 하나의 텍스트로 결합합니다. string.</li> <li>urlopen()을 사용하여 지정된 URL의 HTML을 가져옵니다.</li> </ul>