최근 멀티스레딩, 멀티프로세스, 코루틴 등 Python의 병렬 개발 기술을 연구하기 시작했습니다. 인터넷에 떠도는 정보들을 차근차근 정리하다가 오늘은 그린렛 관련 정보들을 정리하게 되었습니다.
병렬처리는 현재 많은 주목을 받고 있는데, 이는 특히 멀티 코어 및 멀티 코어 시대에 병렬 컴퓨팅이 시스템 처리량을 크게 향상시킬 수 있는 경우가 많기 때문입니다. 따라서 Lisp와 같은 고대 언어가 다시 선택되었으며 함수형 프로그래밍이 점점 더 대중화되었습니다. Python의 병렬 처리를 위한 라이브러리 소개: greenlet. Python에는 동시 처리에 사용되는 매우 유명한 라이브러리가 있습니다. 주로 tasklet이라는 마이크로 스레드를 사용합니다. greenlet과 stackless의 가장 큰 차이점은 매우 가볍다는 것입니다. 충분하지 않습니다. 가장 큰 차이점은 Greenlet이 스레드 전환을 직접 처리해야 한다는 것입니다. 즉, 지금 실행할 Greenlet과 다시 실행할 Greenlet을 지정해야 한다는 것입니다.
저는 Python을 사용하여 웹 프로그램을 개발했으며 항상 fastcgi 모드를 사용했습니다. 그러면 요청 처리를 위해 각 프로세스에서 여러 스레드가 시작된다는 것입니다. 요구 사항 각 요청의 응답 시간이 매우 짧은지 확인하십시오. 그렇지 않으면 요청에 응답할 수 있는 스레드가 없기 때문에 서버는 몇 가지 느린 요청이 더 이상 발생하지 않는 한 서비스를 거부합니다. 일반적으로 서비스가 실행될 때 성능이 테스트됩니다. 일반적인 상황에서는 큰 문제가 없지만, 모든 시나리오를 테스트하는 것은 불가능하며, 일단 발생하면 사용자가 응답하지 않고 오랫동안 기다리게 되어 나중에는 사용할 수 없게 됩니다. , Python에서 코루틴, Greenlet으로 변환되었습니다. 그래서 구현 메커니즘을 만들었습니다.
각 Greenlet은 힙에 있는 Python 개체(PyGreenlet)일 뿐입니다. 프로세스에 대해 수백만 또는 수천만 개의 Greenlet을 생성합니다.
typedef struct _greenlet { PyObject_HEAD char* stack_start; char* stack_stop; char* stack_copy; intptr_t stack_saved; struct _greenlet* stack_prev; struct _greenlet* parent; PyObject* run_info; struct _frame* top_frame; int recursion_depth; PyObject* weakreflist; PyObject* exc_type; PyObject* exc_value; PyObject* exc_traceback; PyObject* dict; } PyGreenlet;
모든 Greenlet은 실제로 함수이며 이 함수의 실행을 저장하는 컨텍스트는 함수의 스택입니다. 동일한 프로세스의 모든 Greenlet은 운영 체제에서 할당한 공통 사용자 스택을 공유하므로 동시에 충돌하지 않는 스택 데이터가 있는 Greenlet만 이 전역 스택을 사용하여 stack_stop 및 stack_start를 통해 스택을 저장합니다. 실행하려는 Greenlet의 stack_stop이 현재 스택에 있는 Greenlet과 겹치는 경우, 이렇게 겹치는 Greenlet의 스택 데이터를 stack_copy, stack_saved를 통해 저장한 위치를 기록하므로 stack_stop, stack_start가 저장됩니다. 복구 중에 스택의 위치가 힙에서 스택으로 다시 복사될 수 있습니다. 그렇지 않으면 스택 데이터가 삭제됩니다. 따라서 애플리케이션에서 생성된 이러한 Greenlet은 힙이나 힙에서 데이터를 지속적으로 복사하여 동시성을 달성합니다. IO 유형 애플리케이션에 코루틴을 사용하는 것이 정말 편리합니다.
다음은 greenlet의 간단한 스택 공간 모델입니다(greenlet.c에서)
A PyGreenlet is a range of C stack addresses that must be saved and restored in such a way that the full range of the stack contains valid data when we switch to it. Stack layout for a greenlet: | ^^^ | | older data | | | stack_stop . |_______________| . | | . | greenlet data | . | in stack | . * |_______________| . . _____________ stack_copy + stack_saved . | | | | . | data | |greenlet data| . | unrelated | | saved | . | to | | in heap | stack_start . | this | . . |_____________| stack_copy | greenlet | | | | newer data | | vvv |
. 간단한 Greenlet 코드입니다.
from greenlet import greenlet def test1(): print 12 gr2.switch() print 34 def test2(): print 56 gr1.switch() print 78 gr1 = greenlet(test1) gr2 = greenlet(test2) gr1.switch()
지금까지 논의된 코루틴은 일반적으로 프로그래밍 언어에서 지원됩니다. 현재 코루틴 지원을 제공하는 것으로 제가 아는 언어로는 Python, Lua, Go, Erlang, Scala 및 Rust가 있습니다. 코루틴과 스레드의 차이점은 코루틴은 운영 체제에 의해 전환되는 것이 아니라 프로그래머 코딩에 의해 전환된다는 점입니다. 즉, 전환은 프로그래머에 의해 제어되므로 소위 스레드가 없습니다. 질문.
모든 코루틴은 전체 프로세스의 컨텍스트를 공유하므로 코루틴 간의 교환도 매우 편리합니다.
두 번째 솔루션(I/O 멀티플렉싱)과 비교할 때 코루틴을 사용하여 작성된 프로그램은 전체 프로세스를 여러 관리되는 이벤트 핸들러로 분할하는 것보다 더 직관적입니다. 코루틴의 단점은 멀티코어의 장점을 활용할 수 없다는 점일 수 있지만, 이는 코루틴 + 프로세스를 통해 해결할 수 있습니다.
코루틴은 동시성을 처리하여 성능을 향상시키는 데 사용할 수 있으며 상태 머신을 구현하여 프로그래밍을 단순화하는 데에도 사용할 수 있습니다. 나는 두 번째 것을 더 사용합니다. 작년 말에 Python을 접하게 되었고, Python의 코루틴 개념에 대해 알게 되었고, 이후 pycon china2011을 통해 Yield 프로세싱을 접하게 되었습니다. Greenlet도 코루틴 솔루션이라고 생각합니다. 특히 상태 머신 처리에 사용 가능한 솔루션입니다.
현재 이 부분은 기본적으로 완성된 상태이므로 나중에 정리하는 시간을 갖도록 하겠습니다.
1) 멀티 프로세스는 멀티 코어의 장점을 활용할 수 있지만, 프로세스 간 통신이 번거롭고, 프로세스 수가 늘어나면 성능 저하가 발생합니다. 프로세스 전환 비용이 더 높습니다. 프로그램 흐름 복잡성은 I/O 다중화보다 낮습니다.
2) I/O 다중화는 프로세스 전환 없이 하나의 프로세스 내에서 여러 개의 논리적 프로세스를 처리하는 것으로 성능이 높고 프로세스 간 정보 공유가 간단합니다. 그러나 멀티코어의 장점을 활용할 수 없습니다. 게다가 이벤트 처리에 의해 프로그램 흐름이 작은 조각으로 절단되어 프로그램이 더욱 복잡해지고 이해하기 어려워집니다.
3) 스레드는 프로세스 내에서 실행되며 운영 체제에 의해 예약됩니다. 또한 프로세스의 가상 주소 공간을 공유하므로 스레드 간에 정보를 쉽게 공유할 수 있습니다. 그러나 스레드 안전 문제로 인해 스레드에 대한 학습 곡선이 가파르고 오류가 발생하기 쉽습니다.
4) 코루틴은 프로그래밍 언어로 제공되며 프로그래머의 제어에 따라 전환되므로 스레드 안전성 문제가 없으며 상태 머신, 동시 요청 등을 처리하는 데 사용할 수 있습니다. 하지만 멀티코어를 활용할 수는 없습니다.
위 네 가지 솔루션을 함께 사용할 수 있습니다. 프로세스 + 코루틴 모델에 대해 더 낙관적입니다.
위 내용은 Python Greenlet 사용 소개 및 구현 원칙 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!