오늘 공유한 글에는 텍스트가 많지 않고 주로 코드가 포함되어 있습니다. 매우 유익하고 간단하며, 주로 Python 성능 향상을 위한 20가지 팁을 공유하고 느린 Python과 작별하는 방법을 알려줍니다. 풀스택 프로그래머인 원저자 Kaiyuan은 Python, Java, PHP 및 C++를 사용합니다.
1. 알고리즘 시간 복잡도 최적화
알고리즘의 시간 복잡도는 프로그램의 실행 효율성에 가장 큰 영향을 미칩니다. 시간 복잡도를 최적화하려면 적절한 데이터 구조를 선택하세요. 예를 들어 목록과 집합의 특정 요소를 검색하는 시간 복잡도는 각각 O(n)과 O(1)입니다. 시나리오마다 최적화 방법이 다릅니다. 일반적으로 분할 및 정복, 분기 및 바인딩, 탐욕 및 동적 프로그래밍과 같은 아이디어가 있습니다.
2. 중복 데이터 줄이기
예를 들어 큰 대칭 행렬을 저장하려면 위쪽 삼각형이나 아래쪽 삼각형을 사용하세요. 0개의 요소가 대부분을 차지하는 행렬에서는 희소 행렬 표현을 사용합니다.
3. copy와 deepcopy의 올바른 사용
dict, list 등의 데이터 구조를 갖는 객체의 경우 직접 할당은 참조를 사용합니다. 전체 개체를 복사해야 하는 경우도 있습니다. 이 경우 복사 패키지에서 복사와 딥카피를 사용할 수 있습니다. 이 두 기능의 차이점은 후자가 재귀적으로 복사한다는 것입니다. 효율성도 다릅니다: (다음 프로그램은 ipython에서 실행됩니다.)
import copy a = range(100000) %timeit -n 10 copy.copy(a) # 运行10次 copy.copy(a) %timeit -n 10 copy.deepcopy(a) 10 loops, best of 3: 1.55 ms per loop 10 loops, best of 3: 151 ms per loop
timeit 뒤의 -n은 실행 횟수를 나타내며 마지막 두 줄은 두 개에 해당합니다. timeit의 출력은 아래와 같습니다. 후자가 훨씬 더 느리다는 것을 알 수 있습니다.
4. dict 또는 set을 사용하여 요소 찾기
Python dict 및 set은 해시 테이블을 사용하여 구현됩니다(c++11 표준 라이브러리의 unordered_map과 유사). 검색 요소의 시간 복잡도는 O(1)입니다.
a = range(1000) s = set(a) d = dict((i,1) for i in a) %timeit -n 10000 100 in d %timeit -n 10000 100 in s 10000 loops, best of 3: 43.5 ns per loop 10000 loops, best of 3: 49.6 ns per loop
dict가 약간 더 효율적이며 더 많은 공간을 차지합니다.
5. 제너레이터의 올바른 사용과 산출량
%timeit -n 100 a = (i for i in range(100000)) %timeit -n 100 b = [i for i in range(100000)] 100 loops, best of 3: 1.54 ms per loop 100 loops, best of 3: 4.56 ms per loop
()를 사용하여 제너레이터 객체, 메모리를 가져옵니다. 필요한 공간은 목록의 크기와 관련이 없으므로 효율성이 더 높아집니다. 예를 들어 특정 응용 프로그램에서는 set(i for i in range(100000))가 set([i for i in range(100000)])보다 빠릅니다.
그러나 루프 순회가 필요한 상황에서는:
%timeit -n 10 for x in (i for i in range(100000)): pass %timeit -n 10 for x in [i for i in range(100000)]: pass 10 loops, best of 3: 6.51 ms per loop 10 loops, best of 3: 5.54 ms per loop
후자가 더 효율적이지만 루프에 중단이 있는 경우 발전기를 사용하면 이점이 분명합니다. Yield는 생성기를 생성하는 데에도 사용됩니다.
def yield_func(ls): for i in ls: yield i+1 def not_yield_func(ls): return [i+1 for i in ls] ls = range(1000000) %timeit -n 10 for i in yield_func(ls):pass %timeit -n 10 for i in not_yield_func(ls):pass 10 loops, best of 3: 63.8 ms per loop 10 loops, best of 3: 62.9 ms per loop
메모리가 그리 크지 않은 목록의 경우 목록을 직접 반환할 수 있지만 Yield의 가독성은 다음과 같습니다. 더 좋습니다(개인 취향).
Python 2.x의 내장 생성기 기능에는 xrange 기능, itertools 패키지 등이 포함됩니다.
6. 루프 최적화
루프 외부에서 수행할 수 있는 작업을 루프 내부에 넣지 마세요. 예를 들어 다음 최적화는 두 배나 빠를 수 있습니다. 🎜>
a = range(10000) size_a = len(a) %timeit -n 1000 for i in a: k = len(a) %timeit -n 1000 for i in a: k = size_a 1000 loops, best of 3: 569 µs per loop 1000 loops, best of 3: 256 µs per loop
7. 다중 판단 표현의 순서를 최적화하세요
그리고, 가장 적은 조건을 만족하는 것들은 또는 가장 많은 조건을 충족하는 것을 먼저 배치하십시오. 예:a = range(2000) %timeit -n 100 [i for i in a if 10 < i < 20 or 1000 < i < 2000] %timeit -n 100 [i for i in a if 1000 < i < 2000 or 100 < i < 20] %timeit -n 100 [i for i in a if i % 2 == 0 and i > 1900] %timeit -n 100 [i for i in a if i > 1900 and i % 2 == 0] 100 loops, best of 3: 287 µs per loop 100 loops, best of 3: 214 µs per loop 100 loops, best of 3: 128 µs per loop 100 loops, best of 3: 56.1 µs per loop
8. Join을 사용하여 반복기의 문자열을 병합합니다.
In [1]: %%timeit ...: s = '' ...: for i in a: ...: s += i ...: 10000 loops, best of 3: 59.8 µs per loop In [2]: %%timeit s = ''.join(a) ...: 100000 loops, best of 3: 11.8 µs per loop
9. 적절한 서식 문자 방식을 선택하세요
s1, s2 = 'ax', 'bx' %timeit -n 100000 'abc%s%s' % (s1, s2) %timeit -n 100000 'abc{0}{1}'.format(s1, s2) %timeit -n 100000 'abc' + s1 + s2 100000 loops, best of 3: 183 ns per loop 100000 loops, best of 3: 169 ns per loop 100000 loops, best of 3: 103 ns per loop
10. 중간변수를 사용하지 않고 두 변수의 값을 교환합니다
In [3]: %%timeit -n 10000 a,b=1,2 ....: c=a;a=b;b=c; ....: 10000 loops, best of 3: 172 ns per loop In [4]: %%timeit -n 10000 a,b=1,2a,b=b,a ....: 10000 loops, best of 3: 86 ns per loop
11. if is 사용
a = range(10000) %timeit -n 100 [i for i in a if i == True] %timeit -n 100 [i for i in a if i is True] 100 loops, best of 3: 531 µs per loop 100 loops, best of 3: 362 µs per loop
12. 계단식 비교 x < y < z
x, y, z = 1,2,3 %timeit -n 1000000 if x < y < z:pass %timeit -n 1000000 if x < y and y < z:pass 1000000 loops, best of 3: 101 ns per loop 1000000 loops, best of 3: 121 ns per loop
x < 약간 더 효율적이고 읽기 쉽습니다.
13. while 1은 while True보다 빠릅니다.def while_1(): n = 100000 while 1: n -= 1 if n <= 0: break def while_true(): n = 100000 while True: n -= 1 if n <= 0: break m, n = 1000000, 1000000 %timeit -n 100 while_1() %timeit -n 100 while_true() 100 loops, best of 3: 3.69 ms per loop 100 loops, best of 3: 5.61 ms per loop
while 1은 while true보다 훨씬 빠릅니다. python2.x, True는 키워드가 아닌 전역 변수입니다.
14. pow 대신 **를 사용하세요%timeit -n 10000 c = pow(2,20) %timeit -n 10000 c = 2**20 10000 loops, best of 3: 284 ns per loop 10000 loops, best of 3: 16.9 ns per loop
**가 10배 이상 빠릅니다!
15. cProfile, cStringIO 및 cPickle을 사용하여 동일한 기능(각각 profile, StringIO, pickle에 해당) 패키지
import cPickle import pickle a = range(10000) %timeit -n 100 x = cPickle.dumps(a) %timeit -n 100 x = pickle.dumps(a) 100 loops, best of 3: 1.58 ms per loop 100 loops, best of 3: 17 ms per loop
C로 패키지 구현, 10배 이상 빨라져!
16. 최상의 역직렬화 방법을 사용하세요다음은 해당 문자열을 역직렬화하기 위한 eval, cPickle 및 json 방법의 효율성을 비교합니다.
import json import cPickle a = range(10000) s1 = str(a) s2 = cPickle.dumps(a) s3 = json.dumps(a) %timeit -n 100 x = eval(s1) %timeit -n 100 x = cPickle.loads(s2) %timeit -n 100 x = json.loads(s3) 100 loops, best of 3: 16.8 ms per loop 100 loops, best of 3: 2.02 ms per loop 100 loops, best of 3: 798 µs per loop
json이 cPickle보다 거의 3배 빠르고 eval보다 20배 이상 빠르다는 것을 알 수 있습니다.
17. C 확장(Extension) 사용현재 세 가지 주요 방법이 있습니다: CPython(파이썬의 가장 일반적인 구현 방법) 네이티브 API, ctypes, Cython, 및 cffi 의 기능은 Python 프로그램이 C에서 컴파일된 동적 링크 라이브러리를 호출할 수 있도록 하는 것입니다. 해당 특성은 다음과 같습니다.
CPython 네이티브 API: Python.h 헤더 파일을 도입하여 Python 데이터 구조를 해당 C 프로그램에서 직접 사용할 수 있습니다. 구현 과정은 상대적으로 번거롭지만 적용 범위가 상대적으로 넓습니다.
ctypes: 은 일반적으로 C 프로그램을 래핑(래핑)하는 데 사용되므로 순수 Python 프로그램이 동적 링크 라이브러리(Windows의 경우 dll 또는 Unix의 경우 파일)의 함수를 호출할 수 있습니다. Python에서 기존 C 라이브러리를 사용하려면 ctypes를 사용하는 것이 좋은 선택입니다. 일부 벤치마크 테스트에 따르면 python2+ctypes가 가장 좋은 방법입니다.
Cython: Cython은 C 확장 작성 프로세스를 단순화하는 CPython의 상위 집합입니다. Cython의 장점은 구문이 간결하고 많은 수의 C 확장이 포함된 numpy와 같은 라이브러리와 잘 호환된다는 것입니다. Cython의 활성화 시나리오는 일반적으로 프로젝트의 특정 알고리즘이나 프로세스의 최적화를 목표로 합니다. 일부 테스트에서는 성능 개선이 수백 배 더 커질 수 있습니다.
cffi: cffi는 pypy에서 ctype을 구현한 것이며(자세한 내용은 아래 참조) CPython과도 호환됩니다. cffi는 Python에서 C 클래스 라이브러리를 사용하는 방법을 제공하며 Python 코드에서 직접 C 코드를 작성하고 기존 C 클래스 라이브러리에 대한 연결을 지원할 수 있습니다.
이러한 최적화 방법의 사용은 일반적으로 기존 프로젝트의 성능 병목 모듈을 최적화하는 것을 목표로 하며, 이는 원래 프로젝트에 약간의 변경을 가하여 전체 프로그램의 운영 효율성을 크게 향상시킬 수 있습니다.
18. 병렬 프로그래밍
GIL이 있기 때문에 Python에서는 멀티 코어 CPU를 최대한 활용하기가 어렵습니다. 그러나 내장 모듈 multiprocessing을 통해 다음과 같은 병렬 모드를 구현할 수 있습니다.
다중 프로세스: CPU 집약적인 프로그램의 경우 다중 처리의 프로세스 및 풀 캡슐화된 클래스가 여러 프로세스를 통해 병렬 컴퓨팅을 구현할 때까지 기다립니다. 그러나 그 과정에서 발생하는 통신 비용이 상대적으로 크기 때문에, 프로세스 간 데이터 상호 작용이 많이 필요한 프로그램의 효율성은 크게 향상되지 않을 수 있습니다.
멀티 스레딩: IO 집약적 프로그램의 경우 multiprocessing.dummy 모듈은 멀티프로세싱 인터페이스를 사용하여 스레딩을 캡슐화하므로 멀티 스레드 프로그래밍이 매우 쉽습니다(예: 간단하고 효율적인 풀 맵 인터페이스를 사용할 수 있습니다.
분산형: 멀티프로세싱의 Managers 클래스는 서로 다른 프로세스 간에 데이터를 공유하는 방법을 제공하며, 이를 기반으로 분산형 프로그램을 개발할 수 있습니다.
다양한 비즈니스 시나리오에서 하나 또는 여러 가지 조합을 선택하여 프로그램 성능을 최적화할 수 있습니다.
19. 최고의 킬러: PyPy
PyPy는 RPython(CPython의 하위 집합)을 사용하여 구현된 Python입니다. 공식 웹사이트의 벤치마크 테스트 데이터에 따르면 CPython의 Python 구현보다 6배 이상 빠릅니다. 빠른 이유는 JIT(Just-in-Time) 컴파일러, 즉 동적 컴파일러를 사용하기 때문입니다. 정적 컴파일러(gcc, javac 등)와 달리 실행 중인 프로세스의 데이터를 사용합니다. 최적화를 위한 프로그램입니다. 역사적인 이유로 인해 GIL은 여전히 pypy에 유지되지만 진행 중인 STM 프로젝트에서는 GIL 없이 PyPy를 Python으로 바꾸려고 노력하고 있습니다.
Python 프로그램에 C 확장(cffi 아님)이 포함되어 있으면 JIT의 최적화 효과가 크게 줄어들며 심지어 CPython(Numpy보다)보다 느립니다. 따라서 PyPy에서는 순수 Python을 사용하거나 cffi 확장을 사용하는 것이 더 좋습니다.
STM, Numpy 및 기타 프로젝트의 개선으로 PyPy가 CPython을 대체할 것이라고 믿습니다.
20. 성능 분석 도구 사용
위의 ipython에서 사용하는 timeit 모듈 외에 cProfile도 있습니다. cProfile의 사용도 매우 간단합니다: python -m cProfile filename.py는 실행할 프로그램의 파일 이름입니다. 표준 출력에서 각 함수가 호출된 횟수와 실행 시간을 볼 수 있습니다. 프로그램의 성능 병목 현상을 찾아 목표 방식으로 최적화할 수 있습니다.
위 내용은 이 글의 전체 내용입니다. 모든 분들의 학습에 도움이 되기를 바랍니다.
Python을 멋지게 만드는 20가지 팁과 관련 기사를 보려면 PHP 중국어 웹사이트를 주목하세요!