PyPy와 CPython의 성능 비교 테스트
최근에 저는 Wikipedia에서 몇 가지 데이터 마이닝 작업을 완료했습니다. 이는 다음 부분으로 구성됩니다.
enwiki-pages-articles.xml의 Wikipedia 덤프를 구문 분석합니다.
카테고리 및 페이지를 MongoDB에 저장합니다.
카테고리 이름을 복사합니다.
실제 작업에서 CPython 2.7.3과 PyPy 2b의 성능을 테스트했습니다. 제가 사용하는 라이브러리는 다음과 같습니다:
redis 2.7.2
pymongo 2.4.2
추가적으로 CPython은 다음 라이브러리에서 지원됩니다:
hiredis
pymongo c-extensions
테스트에는 주로 데이터베이스 구문 분석이 포함되어 있으므로 PyPy에서 많은 이점을 얻을 것으로 기대하지 않았습니다(CPython의 데이터베이스 드라이버가 C로 작성되었다는 점은 말할 것도 없습니다).
아래에서는 몇 가지 흥미로운 결과를 설명하겠습니다.
위키 페이지 이름 추출
모든 Wikipedia 카테고리의 페이지에 위키 페이지 이름을 생성해야 합니다. 재할당된 것을 저장합니다. 가장 간단한 해결책은 enwiki-page.sql(RDB 테이블 정의)을 MySQL로 가져온 다음 데이터를 전송하고 재배포하는 것입니다. 하지만 저는 MySQL 요구 사항(백본 보유! XD 포함)을 늘리고 싶지 않았기 때문에 순수 Python으로 간단한 SQL 삽입 문 파서를 작성한 다음 enwiki-page.sql에서 직접 데이터를 가져와서 재배포했습니다.
이 작업은 CPU에 더 많이 의존하므로 PyPy에 대해 다시 낙관합니다.
/ 시간
PyPy 169.00s 사용자 모드 8.52s 시스템 모드 90% CPU
CPython 1287.13s 사용자 모드 8.10s 시스템 모드 96% CPU
또한 page.id->category에 대해서도 유사한 조인을 수행했습니다(내 노트북의 메모리가 너무 작아서 테스트용 정보를 저장할 수 없습니다).
enwiki에서 카테고리를 필터링합니다. xml에서 카테고리를 필터링하고 카테고리와 동일한 XML 형식으로 저장합니다. 따라서 저는 PyPy와 CPython 모두에서 작동하는 래퍼 파서인 SAX 파서를 선택했습니다. 외부 네이티브 컴파일 패키지(PyPy 및 CPython의 동료).
코드는 매우 간단합니다.
Element 및 TextElement 요소에는 태그 및 본문 정보가 포함되어 있으며 이를 렌더링하는 방법을 제공합니다.
다음은 제가 원하는 PyPy와 CPython의 비교 결과입니다.
class WikiCategoryHandler(handler.ContentHandler): """Class which detecs category pages and stores them separately """ ignored = set(('contributor', 'comment', 'meta')) def __init__(self, f_out): handler.ContentHandler.__init__(self) self.f_out = f_out self.curr_page = None self.curr_tag = '' self.curr_elem = Element('root', {}) self.root = self.curr_elem self.stack = Stack() self.stack.push(self.curr_elem) self.skip = 0 def startElement(self, name, attrs): if self.skip>0 or name in self.ignored: self.skip += 1 return self.curr_tag = name elem = Element(name, attrs) if name == 'page': elem.ns = -1 self.curr_page = elem else: # we don't want to keep old pages in memory self.curr_elem.append(elem) self.stack.push(elem) self.curr_elem = elem def endElement(self, name): if self.skip>0: self.skip -= 1 return if name == 'page': self.task() self.curr_page = None self.stack.pop() self.curr_elem = self.stack.top() self.curr_tag = self.curr_elem.tag def characters(self, content): if content.isspace(): return if self.skip == 0: self.curr_elem.append(TextElement(content)) if self.curr_tag == 'ns': self.curr_page.ns = int(content) def startDocument(self): self.f_out.write("<root>\n") def endDocument(self): self.f_out.write("<\root>\n") print("FINISH PROCESSING WIKIPEDIA") def task(self): if self.curr_page.ns == 14: self.f_out.write(self.curr_page.render()) class Element(object): def __init__(self, tag, attrs): self.tag = tag self.attrs = attrs self.childrens = [] self.append = self.childrens.append def __repr__(self): return "Element {}".format(self.tag) def render(self, margin=0): if not self.childrens: return u"{0}<{1}{2} />".format( " "*margin, self.tag, "".join([' {}="{}"'.format(k,v) for k,v in {}.iteritems()])) if isinstance(self.childrens[0], TextElement) and len(self.childrens)==1: return u"{0}<{1}{2}>{3}</{1}>".format( " "*margin, self.tag, "".join([u' {}="{}"'.format(k,v) for k,v in {}.iteritems()]), self.childrens[0].render()) return u"{0}<{1}{2}>\n{3}\n{0}</{1}>".format( " "*margin, self.tag, "".join([u' {}="{}"'.format(k,v) for k,v in {}.iteritems()]), "\n".join((c.render(margin+2) for c in self.childrens))) class TextElement(object): def __init__(self, content): self.content = content def __repr__(self): return "TextElement" def render(self, margin=0): return self.content
한번은 내 애플리케이션 중 하나의 맥락에서 흥미로운 범주 집합을 계산하고 싶었습니다. 컴퓨팅 카테고리 계산을 시작하기 위한 일부 카테고리입니다. 이렇게 하려면 클래스를 제공하는 클래스 다이어그램(하위 클래스 다이어그램)을 작성해야 합니다.
구조 클래스 - 하위 클래스 관계 다이어그램
이 작업은 MongoDB를 데이터 소스로 사용하고 구조를 재배포합니다. 알고리즘은 다음과 같습니다.
이런 의사 코드를 작성해서 죄송하지만 좀 더 간결해 보이길 바랍니다.
따라서 이 작업은 한 데이터베이스에서 다른 데이터베이스로 데이터만 복사합니다. 여기의 결과는 MongoDB가 워밍업된 후에 얻은 것입니다(데이터가 워밍업되지 않으면 데이터가 편향됩니다. 이 Python 작업은 CPU의 약 10%만 소비합니다). 타이밍은 다음과 같습니다:
for each category.id in redis_categories (it holds *category.id -> category title mapping*) do: title = redis_categories.get(category.id) parent_categories = mongodb get categories for title for each parent_cat in parent categories do: redis_tree.sadd(parent_cat, title) # add to parent_cat set title
redis_tree 탐색(재분산 트리)
redis_tree 데이터베이스가 있는 경우 남은 문제는 다음과 같습니다. 컴퓨팅 카테고리를 탐색하여 달성 가능한 모든 노드를 다운로드합니다. 루프 순회를 방지하려면 방문한 노드를 기록해야 합니다. Python의 데이터베이스 성능을 테스트하고 싶었기 때문에 컬렉션 열을 재배포하여 이 문제를 해결했습니다.
/ 시간
결론
이번 테스트는 제 최종 작품의 미리보기일 뿐입니다. 그러기 위해서는 일련의 지식, 즉 위키피디아에서 적절한 콘텐츠를 추출하여 얻은 지식 체계가 필요합니다.

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

VS 코드는 Windows 8에서 실행될 수 있지만 경험은 크지 않을 수 있습니다. 먼저 시스템이 최신 패치로 업데이트되었는지 확인한 다음 시스템 아키텍처와 일치하는 VS 코드 설치 패키지를 다운로드하여 프롬프트대로 설치하십시오. 설치 후 일부 확장은 Windows 8과 호환되지 않을 수 있으며 대체 확장을 찾거나 가상 시스템에서 새로운 Windows 시스템을 사용해야합니다. 필요한 연장을 설치하여 제대로 작동하는지 확인하십시오. Windows 8에서는 VS 코드가 가능하지만 더 나은 개발 경험과 보안을 위해 새로운 Windows 시스템으로 업그레이드하는 것이 좋습니다.

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

vs 코드에서는 다음 단계를 통해 터미널에서 프로그램을 실행할 수 있습니다. 코드를 준비하고 통합 터미널을 열어 코드 디렉토리가 터미널 작업 디렉토리와 일치하는지 확인하십시오. 프로그래밍 언어 (예 : Python의 Python Your_file_name.py)에 따라 실행 명령을 선택하여 성공적으로 실행되는지 여부를 확인하고 오류를 해결하십시오. 디버거를 사용하여 디버깅 효율을 향상시킵니다.

VS 코드 확장은 악의적 인 코드 숨기기, 취약성 악용 및 합법적 인 확장으로 자위하는 등 악성 위험을 초래합니다. 악의적 인 확장을 식별하는 방법에는 게시자 확인, 주석 읽기, 코드 확인 및주의해서 설치가 포함됩니다. 보안 조치에는 보안 인식, 좋은 습관, 정기적 인 업데이트 및 바이러스 백신 소프트웨어도 포함됩니다.
