최근에 저는 Wikipedia에서 몇 가지 데이터 마이닝 작업을 완료했습니다. 이는 다음 부분으로 구성됩니다.
enwiki-pages-articles.xml의 Wikipedia 덤프를 구문 분석합니다.
카테고리 및 페이지를 MongoDB에 저장합니다.
카테고리 이름을 복사합니다.
실제 작업에서 CPython 2.7.3과 PyPy 2b의 성능을 테스트했습니다. 제가 사용하는 라이브러리는 다음과 같습니다:
redis 2.7.2
pymongo 2.4.2
추가적으로 CPython은 다음 라이브러리에서 지원됩니다:
hiredis
pymongo c-extensions
테스트에는 주로 데이터베이스 구문 분석이 포함되어 있으므로 PyPy에서 많은 이점을 얻을 것으로 기대하지 않았습니다(CPython의 데이터베이스 드라이버가 C로 작성되었다는 점은 말할 것도 없습니다).
아래에서는 몇 가지 흥미로운 결과를 설명하겠습니다.
위키 페이지 이름 추출
모든 Wikipedia 카테고리의 페이지에 위키 페이지 이름을 생성해야 합니다. 재할당된 것을 저장합니다. 가장 간단한 해결책은 enwiki-page.sql(RDB 테이블 정의)을 MySQL로 가져온 다음 데이터를 전송하고 재배포하는 것입니다. 하지만 저는 MySQL 요구 사항(백본 보유! XD 포함)을 늘리고 싶지 않았기 때문에 순수 Python으로 간단한 SQL 삽입 문 파서를 작성한 다음 enwiki-page.sql에서 직접 데이터를 가져와서 재배포했습니다.
이 작업은 CPU에 더 많이 의존하므로 PyPy에 대해 다시 낙관합니다.
/ 시간
PyPy 169.00s 사용자 모드 8.52s 시스템 모드 90% CPU
CPython 1287.13s 사용자 모드 8.10s 시스템 모드 96% CPU
또한 page.id->category에 대해서도 유사한 조인을 수행했습니다(내 노트북의 메모리가 너무 작아서 테스트용 정보를 저장할 수 없습니다).
enwiki에서 카테고리를 필터링합니다. xml에서 카테고리를 필터링하고 카테고리와 동일한 XML 형식으로 저장합니다. 따라서 저는 PyPy와 CPython 모두에서 작동하는 래퍼 파서인 SAX 파서를 선택했습니다. 외부 네이티브 컴파일 패키지(PyPy 및 CPython의 동료).
코드는 매우 간단합니다.
Element 및 TextElement 요소에는 태그 및 본문 정보가 포함되어 있으며 이를 렌더링하는 방법을 제공합니다.
다음은 제가 원하는 PyPy와 CPython의 비교 결과입니다.
class WikiCategoryHandler(handler.ContentHandler): """Class which detecs category pages and stores them separately """ ignored = set(('contributor', 'comment', 'meta')) def __init__(self, f_out): handler.ContentHandler.__init__(self) self.f_out = f_out self.curr_page = None self.curr_tag = '' self.curr_elem = Element('root', {}) self.root = self.curr_elem self.stack = Stack() self.stack.push(self.curr_elem) self.skip = 0 def startElement(self, name, attrs): if self.skip>0 or name in self.ignored: self.skip += 1 return self.curr_tag = name elem = Element(name, attrs) if name == 'page': elem.ns = -1 self.curr_page = elem else: # we don't want to keep old pages in memory self.curr_elem.append(elem) self.stack.push(elem) self.curr_elem = elem def endElement(self, name): if self.skip>0: self.skip -= 1 return if name == 'page': self.task() self.curr_page = None self.stack.pop() self.curr_elem = self.stack.top() self.curr_tag = self.curr_elem.tag def characters(self, content): if content.isspace(): return if self.skip == 0: self.curr_elem.append(TextElement(content)) if self.curr_tag == 'ns': self.curr_page.ns = int(content) def startDocument(self): self.f_out.write("<root>\n") def endDocument(self): self.f_out.write("<\root>\n") print("FINISH PROCESSING WIKIPEDIA") def task(self): if self.curr_page.ns == 14: self.f_out.write(self.curr_page.render()) class Element(object): def __init__(self, tag, attrs): self.tag = tag self.attrs = attrs self.childrens = [] self.append = self.childrens.append def __repr__(self): return "Element {}".format(self.tag) def render(self, margin=0): if not self.childrens: return u"{0}<{1}{2} />".format( " "*margin, self.tag, "".join([' {}="{}"'.format(k,v) for k,v in {}.iteritems()])) if isinstance(self.childrens[0], TextElement) and len(self.childrens)==1: return u"{0}<{1}{2}>{3}</{1}>".format( " "*margin, self.tag, "".join([u' {}="{}"'.format(k,v) for k,v in {}.iteritems()]), self.childrens[0].render()) return u"{0}<{1}{2}>\n{3}\n{0}</{1}>".format( " "*margin, self.tag, "".join([u' {}="{}"'.format(k,v) for k,v in {}.iteritems()]), "\n".join((c.render(margin+2) for c in self.childrens))) class TextElement(object): def __init__(self, content): self.content = content def __repr__(self): return "TextElement" def render(self, margin=0): return self.content
한번은 내 애플리케이션 중 하나의 맥락에서 흥미로운 범주 집합을 계산하고 싶었습니다. 컴퓨팅 카테고리 계산을 시작하기 위한 일부 카테고리입니다. 이렇게 하려면 클래스를 제공하는 클래스 다이어그램(하위 클래스 다이어그램)을 작성해야 합니다.
구조 클래스 - 하위 클래스 관계 다이어그램
이 작업은 MongoDB를 데이터 소스로 사용하고 구조를 재배포합니다. 알고리즘은 다음과 같습니다.
이런 의사 코드를 작성해서 죄송하지만 좀 더 간결해 보이길 바랍니다.
따라서 이 작업은 한 데이터베이스에서 다른 데이터베이스로 데이터만 복사합니다. 여기의 결과는 MongoDB가 워밍업된 후에 얻은 것입니다(데이터가 워밍업되지 않으면 데이터가 편향됩니다. 이 Python 작업은 CPU의 약 10%만 소비합니다). 타이밍은 다음과 같습니다:
for each category.id in redis_categories (it holds *category.id -> category title mapping*) do: title = redis_categories.get(category.id) parent_categories = mongodb get categories for title for each parent_cat in parent categories do: redis_tree.sadd(parent_cat, title) # add to parent_cat set title
redis_tree 탐색(재분산 트리)
redis_tree 데이터베이스가 있는 경우 남은 문제는 다음과 같습니다. 컴퓨팅 카테고리를 탐색하여 달성 가능한 모든 노드를 다운로드합니다. 루프 순회를 방지하려면 방문한 노드를 기록해야 합니다. Python의 데이터베이스 성능을 테스트하고 싶었기 때문에 컬렉션 열을 재배포하여 이 문제를 해결했습니다.
/ 시간
결론
이번 테스트는 제 최종 작품의 미리보기일 뿐입니다. 그러기 위해서는 일련의 지식, 즉 위키피디아에서 적절한 콘텐츠를 추출하여 얻은 지식 체계가 필요합니다.