私たちは、ほぼすべてのプログラミング言語のループについて学習しました。したがって、デフォルトでは、反復操作があるたびにループの実装を開始します。しかし、大量の反復 (数百万/数十億行) を扱う場合、ループを使用するのは非常に面倒で、何時間も行き詰まって、後でそれが機能しないことに気づく可能性があります。ここで、Python でのベクトル化の実装が非常に重要になります。
ベクトル化は、データ セットに対する (NumPy) 配列操作を実装するための手法です。バックグラウンドで、配列または系列のすべての要素を一度に操作します (一度に 1 行を操作する 'for' ループとは異なります)。
このブログでは、Python ループをベクトル化で簡単に置き換えることができるいくつかのユースケースを見ていきます。これにより、時間を節約し、コーディングの習熟度を高めることができます。
最初に、ループとベクトルを使用して Python で数値の合計を求める基本的な例を見てみましょう。
import time start = time.time() # 遍历之和 total = 0 # 遍历150万个数字 for item in range(0, 1500000): total = total + item print('sum is:' + str(total)) end = time.time() print(end - start) #1124999250000 #0.14 Seconds
import numpy as np start = time.time() # 向量化和--使用numpy进行向量化 # np.range创建从0到1499999的数字序列 print(np.sum(np.arange(1500000))) end = time.time() print(end - start) ##1124999250000 ##0.008 Seconds
ベクトル化の実行と範囲関数を使用した反復の比較 時間は約 18回。この違いは、Pandas DataFrame を使用する場合にさらに顕著になります。
データ サイエンスでは、Pandas DataFrame を使用する場合、開発者はループを使用して数学的演算用の新しい派生列を作成します。
以下の例では、このようなユースケースでは、ループをベクトル化によって簡単に置き換えることができることがわかります。
DataFrame は、行と列の形式の表形式のデータです。
500 万行と 0 から 50 までのランダムな値が入った 4 列を持つパンダ データフレームを作成しています。
import numpy as np import pandas as pd df = pd.DataFrame(np.random.randint(0, 50, size=(5000000, 4)), columns=('a','b','c','d')) df.shape # (5000000, 5) df.head()
新しい列「ratio」を作成して、列「d」と「c」の比率を調べます。
import time start = time.time() # Iterating through DataFrame using iterrows for idx, row in df.iterrows(): # creating a new column df.at[idx,'ratio'] = 100 * (row["d"] / row["c"]) end = time.time() print(end - start) ### 109 Seconds
start = time.time() df["ratio"] = 100 * (df["d"] / df["c"]) end = time.time() print(end - start) ### 0.12 seconds
Python を使用すると、DataFrame が大幅に改善されていることがわかります。のループと比較して、ベクトル化はほぼ 1000 倍高速です。
「if-else」タイプのロジックを使用する必要がある多くの操作を実装しました。このロジックは、Python のベクトル化された操作に簡単に置き換えることができます。
以下の例を見て、よりよく理解してください (使用例 2 で作成した DataFrame を使用します)。
終了した列「a」の条件に基づいて新しい列「e」を作成する方法を想像してください。
import time start = time.time() # Iterating through DataFrame using iterrows for idx, row in df.iterrows(): if row.a == 0: df.at[idx,'e'] = row.d elif (row.a <= 25) & (row.a > 0): df.at[idx,'e'] = (row.b)-(row.c) else: df.at[idx,'e'] = row.b + row.c end = time.time() print(end - start) ### Time taken: 177 seconds
start = time.time() df['e'] = df['b'] + df['c'] df.loc[df['a'] <= 25, 'e'] = df['b'] -df['c'] df.loc[df['a']==0, 'e'] = df['d']end = time.time() print(end - start) ## 0.28007707595825195 sec
if-else ステートメントを含む Python ループと比較すると、ベクトル化された操作は 600 です。ループよりも数倍高速です。
ディープ ラーニングでは、複数の複雑な方程式、および数百万行、数十億行の方程式を解く必要があります。これらの方程式を解くために Python でループを実行すると非常に時間がかかり、その時点ではベクトル化が最適な解決策になります。
たとえば、次の重線形回帰式で数百万行の y 値を計算するとします。
ループの代わりにベクトル化を使用できます。
m1、m2、m3... の値は、x1、x2、x3... に対応する数百万の値を使用して上記の方程式を解くことによって決定されます (簡単にするために、1 つだけを見てください)単純な乗算手順)
>>> import numpy as np >>> # 设置 m 的初始值 >>> m = np.random.rand(1,5) array([[0.49976103, 0.33991827, 0.60596021, 0.78518515, 0.5540753]]) >>> # 500万行的输入值 >>> x = np.random.rand(5000000,5)
import numpy as np m = np.random.rand(1,5) x = np.random.rand(5000000,5) total = 0 tic = time.process_time() for i in range(0,5000000): total = 0 for j in range(0,5): total = total + x[i][j]*m[0][j] zer[i] = total toc = time.process_time() print ("Computation time = " + str((toc - tic)) + "seconds") ####Computation time = 28.228 seconds
tic = time.process_time() #dot product np.dot(x,m.T) toc = time.process_time() print ("Computation time = " + str((toc - tic)) + "seconds") ####Computation time = 0.107 seconds
以上がさようなら! Python ループ、ベクトル化は素晴らしいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。