백엔드 개발 파이썬 튜토리얼 PyPy와 CPython의 성능 비교 테스트

PyPy와 CPython의 성능 비교 테스트

Oct 18, 2016 pm 01:33 PM
cpython pypy python 성능 시험

최근에 저는 Wikipedia에서 몇 가지 데이터 마이닝 작업을 완료했습니다. 이는 다음 부분으로 구성됩니다.

enwiki-pages-articles.xml의 Wikipedia 덤프를 구문 분석합니다.

카테고리 및 페이지를 MongoDB에 저장합니다.

카테고리 이름을 복사합니다.

실제 작업에서 CPython 2.7.3과 PyPy 2b의 성능을 테스트했습니다. 제가 사용하는 라이브러리는 다음과 같습니다:

redis 2.7.2

pymongo 2.4.2

추가적으로 CPython은 다음 라이브러리에서 지원됩니다:

hiredis

pymongo c-extensions

테스트에는 주로 데이터베이스 구문 분석이 포함되어 있으므로 PyPy에서 많은 이점을 얻을 것으로 기대하지 않았습니다(CPython의 데이터베이스 드라이버가 C로 작성되었다는 점은 말할 것도 없습니다).

아래에서는 몇 가지 흥미로운 결과를 설명하겠습니다.


위키 페이지 이름 추출


모든 Wikipedia 카테고리의 페이지에 위키 페이지 이름을 생성해야 합니다. 재할당된 것을 저장합니다. 가장 간단한 해결책은 enwiki-page.sql(RDB 테이블 정의)을 MySQL로 가져온 다음 데이터를 전송하고 재배포하는 것입니다. 하지만 저는 MySQL 요구 사항(백본 보유! XD 포함)을 늘리고 싶지 않았기 때문에 순수 Python으로 간단한 SQL 삽입 문 파서를 작성한 다음 enwiki-page.sql에서 직접 데이터를 가져와서 재배포했습니다.

이 작업은 CPU에 더 많이 의존하므로 PyPy에 대해 다시 낙관합니다.

/ 시간

PyPy 169.00s 사용자 모드 8.52s 시스템 모드 90% CPU

CPython 1287.13s 사용자 모드 8.10s 시스템 모드 96% CPU

또한 page.id->category에 대해서도 유사한 조인을 수행했습니다(내 노트북의 메모리가 너무 작아서 테스트용 정보를 저장할 수 없습니다).


enwiki에서 카테고리를 필터링합니다. xml에서 카테고리를 필터링하고 카테고리와 동일한 XML 형식으로 저장합니다. 따라서 저는 PyPy와 CPython 모두에서 작동하는 래퍼 파서인 SAX 파서를 선택했습니다. 외부 네이티브 컴파일 패키지(PyPy 및 CPython의 동료).

코드는 매우 간단합니다.

Element 및 TextElement 요소에는 태그 및 본문 정보가 포함되어 있으며 이를 렌더링하는 방법을 제공합니다.

다음은 제가 원하는 PyPy와 CPython의 비교 결과입니다.

class WikiCategoryHandler(handler.ContentHandler):
    """Class which detecs category pages and stores them separately
    """
    ignored = set(('contributor', 'comment', 'meta'))
  
    def __init__(self, f_out):
        handler.ContentHandler.__init__(self)
        self.f_out = f_out
        self.curr_page = None
        self.curr_tag = ''
        self.curr_elem = Element('root', {})
        self.root = self.curr_elem
        self.stack = Stack()
        self.stack.push(self.curr_elem)
        self.skip = 0
  
    def startElement(self, name, attrs):
        if self.skip>0 or name in self.ignored:
            self.skip += 1
            return
        self.curr_tag = name
        elem = Element(name, attrs)
        if name == 'page':
            elem.ns = -1
            self.curr_page = elem
        else:   # we don't want to keep old pages in memory
            self.curr_elem.append(elem)
        self.stack.push(elem)
        self.curr_elem = elem
  
    def endElement(self, name):
        if self.skip>0:
            self.skip -= 1
            return
        if name == 'page':
            self.task()
            self.curr_page = None
        self.stack.pop()
        self.curr_elem = self.stack.top()
        self.curr_tag = self.curr_elem.tag
  
    def characters(self, content):
        if content.isspace(): return
        if self.skip == 0:
            self.curr_elem.append(TextElement(content))
            if self.curr_tag == 'ns':
                self.curr_page.ns = int(content)
  
    def startDocument(self):
        self.f_out.write("<root>\n")
  
    def endDocument(self):
        self.f_out.write("<\root>\n")
        print("FINISH PROCESSING WIKIPEDIA")
  
    def task(self):
        if self.curr_page.ns == 14:
            self.f_out.write(self.curr_page.render())
  
  
class Element(object):
    def __init__(self, tag, attrs):
        self.tag = tag
        self.attrs = attrs
        self.childrens = []
        self.append = self.childrens.append
  
    def __repr__(self):
        return "Element {}".format(self.tag)
  
    def render(self, margin=0):
        if not self.childrens:
            return u"{0}<{1}{2} />".format(
                " "*margin,
                self.tag,
                "".join([&#39; {}="{}"&#39;.format(k,v) for k,v in {}.iteritems()]))
        if isinstance(self.childrens[0], TextElement) and len(self.childrens)==1:
            return u"{0}<{1}{2}>{3}</{1}>".format(
                " "*margin,
                self.tag,
                "".join([u&#39; {}="{}"&#39;.format(k,v) for k,v in {}.iteritems()]),
                self.childrens[0].render())
  
        return u"{0}<{1}{2}>\n{3}\n{0}</{1}>".format(
            " "*margin,
            self.tag,
            "".join([u&#39; {}="{}"&#39;.format(k,v) for k,v in {}.iteritems()]),
            "\n".join((c.render(margin+2) for c in self.childrens)))
  
class TextElement(object):
    def __init__(self, content):
        self.content = content
  
    def __repr__(self):
        return "TextElement" def render(self, margin=0):
        return self.content
로그인 후 복사
/time

PyPy 2169.90s

CPython 4494.69s

PyPy의 결과에 매우 놀랐습니다.

흥미로운 범주 집합 계산

한번은 내 애플리케이션 중 하나의 맥락에서 흥미로운 범주 집합을 계산하고 싶었습니다. 컴퓨팅 카테고리 계산을 시작하기 위한 일부 카테고리입니다. 이렇게 하려면 클래스를 제공하는 클래스 다이어그램(하위 클래스 다이어그램)을 작성해야 합니다.

구조 클래스 - 하위 클래스 관계 다이어그램

이 작업은 MongoDB를 데이터 소스로 사용하고 구조를 재배포합니다. 알고리즘은 다음과 같습니다.


이런 의사 코드를 작성해서 죄송하지만 좀 더 간결해 보이길 바랍니다.

따라서 이 작업은 한 데이터베이스에서 다른 데이터베이스로 데이터만 복사합니다. 여기의 결과는 MongoDB가 워밍업된 후에 얻은 것입니다(데이터가 워밍업되지 않으면 데이터가 편향됩니다. 이 Python 작업은 CPU의 약 10%만 소비합니다). 타이밍은 다음과 같습니다:

for each category.id in redis_categories (it holds *category.id -> category title mapping*) do:
    title = redis_categories.get(category.id)
    parent_categories = mongodb get categories for title
    for each parent_cat in parent categories do:
        redis_tree.sadd(parent_cat, title) # add to parent_cat set title
로그인 후 복사
/시간

PyPy 175.11s 사용자 모드 66.11s 시스템 모드 64% CPU

CPython 457.92s 사용자 모드 72.86s 시스템 모드 81% CPU

redis_tree 탐색(재분산 트리)


redis_tree 데이터베이스가 있는 경우 남은 문제는 다음과 같습니다. 컴퓨팅 카테고리를 탐색하여 달성 가능한 모든 노드를 다운로드합니다. 루프 순회를 방지하려면 방문한 노드를 기록해야 합니다. Python의 데이터베이스 성능을 테스트하고 싶었기 때문에 컬렉션 열을 재배포하여 이 문제를 해결했습니다.

/ 시간

PyPy 14.79s 사용자 모드 6.22s 시스템 모드 69% CPU 30.322 합계

CPython 44.20s 사용자 모드 13.86s 시스템 모드 71% CPU 1:20.91 합계

솔직히 이 작업에는 불필요한 카테고리 입력을 피하기 위해 금기 목록도 작성해야 합니다. 하지만 이 글의 요점은 그게 아닙니다.

결론

이번 테스트는 제 최종 작품의 미리보기일 뿐입니다. 그러기 위해서는 일련의 지식, 즉 위키피디아에서 적절한 콘텐츠를 추출하여 얻은 지식 체계가 필요합니다.

CPython에 비해 PyPy는 간단한 데이터베이스 작업으로 성능이 2~3배 향상되었습니다. (여기서는 SQL 파서를 세지 않고 약 8배 정도)

PyPy 덕분에 일이 더 즐겁습니다. 알고리즘을 다시 작성하지 않고도 Python을 효율적으로 만들었고, PyPy는 CPython처럼 CPython을 사용하지 않습니다. CPython.CPU가 중단되어 한동안 노트북을 정상적으로 사용할 수 없었습니다(CPU 시간 비율을 보세요).

작업은 거의 모든 데이터베이스 작업이며 CPython에는 가속화된 지저분한 C 언어 모듈이 있습니다. PyPy는 이를 사용하지 않지만 결과는 더 빠릅니다!

제가 하는 모든 작업에는 많은 사이클이 필요하기 때문에 PyPy를 사용하게 되어 정말 기쁩니다.

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP와 Python : 다른 패러다임이 설명되었습니다 PHP와 Python : 다른 패러다임이 설명되었습니다 Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python 중에서 선택 : 가이드 PHP와 Python 중에서 선택 : 가이드 Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

Python vs. JavaScript : 학습 곡선 및 사용 편의성 Python vs. JavaScript : 학습 곡선 및 사용 편의성 Apr 16, 2025 am 12:12 AM

Python은 부드러운 학습 곡선과 간결한 구문으로 초보자에게 더 적합합니다. JavaScript는 가파른 학습 곡선과 유연한 구문으로 프론트 엔드 개발에 적합합니다. 1. Python Syntax는 직관적이며 데이터 과학 및 백엔드 개발에 적합합니다. 2. JavaScript는 유연하며 프론트 엔드 및 서버 측 프로그래밍에서 널리 사용됩니다.

Windows 8에서 코드를 실행할 수 있습니다 Windows 8에서 코드를 실행할 수 있습니다 Apr 15, 2025 pm 07:24 PM

VS 코드는 Windows 8에서 실행될 수 있지만 경험은 크지 않을 수 있습니다. 먼저 시스템이 최신 패치로 업데이트되었는지 확인한 다음 시스템 아키텍처와 일치하는 VS 코드 설치 패키지를 다운로드하여 프롬프트대로 설치하십시오. 설치 후 일부 확장은 Windows 8과 호환되지 않을 수 있으며 대체 확장을 찾거나 가상 시스템에서 새로운 Windows 시스템을 사용해야합니다. 필요한 연장을 설치하여 제대로 작동하는지 확인하십시오. Windows 8에서는 VS 코드가 가능하지만 더 나은 개발 경험과 보안을 위해 새로운 Windows 시스템으로 업그레이드하는 것이 좋습니다.

PHP와 Python : 그들의 역사에 깊은 다이빙 PHP와 Python : 그들의 역사에 깊은 다이빙 Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

Python에서 비주얼 스튜디오 코드를 사용할 수 있습니다 Python에서 비주얼 스튜디오 코드를 사용할 수 있습니다 Apr 15, 2025 pm 08:18 PM

VS 코드는 파이썬을 작성하는 데 사용될 수 있으며 파이썬 애플리케이션을 개발하기에 이상적인 도구가되는 많은 기능을 제공합니다. 사용자는 다음을 수행 할 수 있습니다. Python 확장 기능을 설치하여 코드 완료, 구문 강조 및 디버깅과 같은 기능을 얻습니다. 디버거를 사용하여 코드를 단계별로 추적하고 오류를 찾아 수정하십시오. 버전 제어를 위해 git을 통합합니다. 코드 서식 도구를 사용하여 코드 일관성을 유지하십시오. 라인 도구를 사용하여 잠재적 인 문제를 미리 발견하십시오.

터미널 VSCODE에서 프로그램을 실행하는 방법 터미널 VSCODE에서 프로그램을 실행하는 방법 Apr 15, 2025 pm 06:42 PM

vs 코드에서는 다음 단계를 통해 터미널에서 프로그램을 실행할 수 있습니다. 코드를 준비하고 통합 터미널을 열어 코드 디렉토리가 터미널 작업 디렉토리와 일치하는지 확인하십시오. 프로그래밍 언어 (예 : Python의 Python Your_file_name.py)에 따라 실행 명령을 선택하여 성공적으로 실행되는지 여부를 확인하고 오류를 해결하십시오. 디버거를 사용하여 디버깅 효율을 향상시킵니다.

VScode 확장자가 악의적입니까? VScode 확장자가 악의적입니까? Apr 15, 2025 pm 07:57 PM

VS 코드 확장은 악의적 인 코드 숨기기, 취약성 악용 및 합법적 인 확장으로 자위하는 등 악성 위험을 초래합니다. 악의적 인 확장을 식별하는 방법에는 게시자 확인, 주석 읽기, 코드 확인 및주의해서 설치가 포함됩니다. 보안 조치에는 보안 인식, 좋은 습관, 정기적 인 업데이트 및 바이러스 백신 소프트웨어도 포함됩니다.

See all articles