모든 프로그래밍 언어는 루프와 분리될 수 없습니다. 따라서 기본적으로 반복 작업이 있을 때마다 루프 실행을 시작합니다. 그러나 많은 수의 반복(수백만/수십억 행)을 처리할 때 루프를 사용하는 것은 범죄입니다. 몇 시간 동안 정체되어 있다가 나중에 그것이 작동하지 않는다는 것을 깨닫게 될 수도 있습니다. Python에서 벡터화를 구현하는 것이 매우 중요합니다.
벡터화는 데이터 세트에 (NumPy) 배열 작업을 구현하는 기술입니다. 뒤에서는 한 번에 한 행씩 작업하는 "for" 루프와는 달리 배열이나 계열의 모든 요소에 작업을 한 번에 적용합니다.
다음으로 벡터화가 무엇인지 보여주기 위해 몇 가지 사용 사례를 사용하겠습니다.
##使用循环 import time start = time.time() # iterative sum total = 0 # iterating through 1.5 Million numbers for item in range(0, 1500000): total = total + item print('sum is:' + str(total)) end = time.time() print(end - start) #1124999250000 #0.14 Seconds
## 使用矢量化 import numpy as np start = time.time() # vectorized sum - using numpy for vectorization # np.arange create the sequence of numbers from 0 to 1499999 print(np.sum(np.arange(1500000))) end = time.time() print(end - start) ##1124999250000 ##0.008 Seconds
범위 함수를 사용한 반복에 비해 벡터화 실행 시간이 약 18배 단축됩니다. 이 차이는 Pandas DataFrame을 사용할 때 더욱 중요해집니다.
데이터 과학에서 개발자는 Pandas DataFrame으로 작업할 때 루프를 사용하여 수학 연산을 통해 새로운 파생 열을 생성합니다.
아래 예에서 이러한 사용 사례에 대해 루프를 벡터화로 대체하는 것이 얼마나 쉬운지 확인할 수 있습니다.
DataFrame은 행과 열 형태의 표 형식 데이터입니다.
우리는 0에서 50 사이의 임의의 값으로 채워진 500만 개의 행과 4개의 열이 있는 pandas DataFrame을 만듭니다.
import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint( 0 , 50 , size=( 5000000 , 4 )), columns=( 'a' , 'b' , 'c' , 'd ' )) df.shape # (5000000, 5) df.head()
새 열 "ratio"를 만들어 "d" 열과 "c" 열의 비율을 찾습니다.
## 循环遍历 import time start = time.time() # 使用 iterrows 遍历 DataFrame for idx, row in df.iterrows(): # 创建一个新列 df.at[idx, 'ratio' ] = 100 * (row[ "d" ] / row[ "c" ]) end = time.time() print (end - start) ### 109 秒
## 使用矢量化 start = time.time() df[ "ratio" ] = 100 * (df[ "d" ] / df[ "c" ]) end = time.time() print (end - start) ### 0.12 秒
DataFrame을 사용하면 벡터화된 작업이 Python의 루프에 비해 거의 1000배 더 빠르게 향상되어 상당한 개선이 이루어졌습니다.
우리는 "If-else" 유형 논리를 사용해야 하는 많은 작업을 구현했습니다. 이 논리를 Python의 벡터화된 작업으로 쉽게 대체할 수 있습니다.
더 잘 이해하기 위해 다음 예를 살펴보겠습니다(사용 사례 2에서 생성한 DataFrame을 사용합니다).
기존 열 "a" Column "에 대한 일부 조건을 기반으로 새 열을 생성한다고 상상해 보세요. e"
## 使用循环 import time start = time.time() # 使用 iterrows 遍历 DataFrame for idx, row in df.iterrows(): if row.a == 0 : df.at[idx, 'e' ] = row.d elif ( row.a <= 25 ) & (row.a > 0 ): df.at[idx, 'e' ] = (row.b)-(row.c) else : df.at[idx, 'e' ] = row.b + row.c end = time.time() print (end - start) ### 耗时:166 秒
## 矢量化 start = time.time() df[ 'e' ] = df[ 'b' ] + df[ 'c' ] df.loc[df[ 'a' ] <= 25 , 'e' ] = df [ 'b' ] -df[ 'c' ] df.loc[df[ 'a' ]== 0 , 'e' ] = df[ 'd' ]end = time.time() 打印(结束 - 开始) ## 0.29007707595825195 秒
벡터화된 작업은 if-else 문을 사용하는 Python 루프에 비해 600배 더 빠릅니다.
딥 러닝을 위해서는 수백만, 수십억 줄의 복잡한 방정식과 문제를 해결해야 합니다. Python에서 이러한 방정식을 풀기 위해 루프를 실행하는 것은 매우 느리며 벡터화가 최상의 솔루션입니다.
예를 들어 다음 다중 선형 회귀 방정식에서 수백만 행에 대한 y 값을 계산하려면:
루핑 대신 벡터화를 사용할 수 있습니다.
m1, m2, m3…의 값은 x1, x2, x3…
import numpy as np # 设置 m 的初始值 m = np.random.rand( 1 , 5 ) # 500 万行的输入值 x = np.random.rand( 5000000 , 5 )
## 使用循环 import numpy as np m = np.random.rand(1,5) x = np.random.rand(5000000,5) total = 0 tic = time.process_time() for i in range(0,5000000): total = 0 for j in range(0,5): total = total + x[i][j]*m[0][j] zer[i] = total toc = time.process_time() print ("Computation time = "+ str ((toc - tic)) + "seconds" ) ####计算时间 = 27.02 秒
## 矢量化 tic = time.process_time() #dot product np.dot(x,mT) toc = time.process_time() print ( "计算时间 = " + str ((toc - tic)) + "seconds" ) ####计算时间 = 0.107 秒
np에 해당하는 수백만 개의 값을 사용하여 위 방정식을 풀어 결정됩니다. 백엔드의 벡터화된 행렬 곱셈. Python의 루프에 비해 165배 빠릅니다.
파이썬의 벡터화는 매우 빠르며 매우 큰 데이터 세트를 처리할 때마다 루프보다 선호되어야 합니다.
시간이 지남에 따라 구현을 시작하면 벡터화된 코드 라인을 따라 생각하는 데 익숙해질 것입니다.
위 내용은 벡터화를 사용하여 Python에서 루프 교체의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!