Python: Pandas が効率的に動作する方法

巴扎黑
リリース: 2017-07-19 13:38:56
オリジナル
1263 人が閲覧しました

この記事では、Pandas の操作効率を比較テストして、どの方法で操作効率を向上できるかを検討します。

テスト環境は次のとおりです:

  • windows 7、64ビット

  • python 3.5

  • pandas 0.19.2

  • numpy 1.11.3

  • ジュピターノートブック

説明が必要です。はい、システム、コンピューター構成、ソフトウェア環境が異なれば、動作結果も異なる可能性があります。同じコンピュータであっても、実行するたびに結果がまったく同じになるわけではありません。

1 テスト内容

テストの内容は、a*a+b*bという簡単な演算過程を3つの方法で計算するというものです。

その 3 つのメソッドは次のとおりです:

  1. Python の for ループ

  2. Pandas の Series

  3. Numpy の ndarray

最初に DataFrame、つまりデータのサイズ、つまり行数を構築します。のDataFrame は、10、100、1000、…、10,000,000 (千万) までです。

次に、jupyter Notebook で次のコードを使用してそれぞれテストし、さまざまなメソッドの実行時間を確認し、比較します。

import pandas as pdimport numpy as np# 100分别用 10,100,...,10,000,000来替换运行list_a = list(range(100))# 200分别用 20,200,...,20,000,000来替换运行list_b = list(range(100,200))
print(len(list_a))
print(len(list_b))

df = pd.DataFrame({'a':list_a, 'b':list_b})
print('数据维度为:{}'.format(df.shape))
print(len(df))
print(df.head())
ログイン後にコピー
100
100
数据维度为:(100, 2)
100
   a    b
0  0  100
1  1  101
2  2  102
3  3  103
4  4  104
ログイン後にコピー
  • a*a + b*b

  • 方法1:forループ

%%timeit# 当DataFrame的行数大于等于1000000时,请用 %%time 命令for i in range(len(df)):
    df['a'][i]*df['a'][i]+df['b'][i]*df['b'][i]
ログイン後にコピー
100 loops, best of 3: 12.8 ms per loop
ログイン後にコピー
  • 方法2:シリーズ

rrええええええええ
  • メソッド3: ndarray

type(df['a'])
ログイン後にコピー
pandas.core.series.Series
ログイン後にコピー
rree
%%timeit
df['a']*df['a']+df['b']*df['b']
ログイン後にコピー

2 テスト結果

実行結果は次のとおりです:

実行結果からわかるように、for ループは Series や ndarray よりも明らかに遅く、サイズが大きくなります。データの量が増えるほど、違いはより明らかになります。 データ量が 1,000 万行に達すると、for ループのパフォーマンスは 10,000 倍以上低下します。 Series と ndarray の違いはそれほど大きくありません。

追記: 1,000 万行がある場合、for ループの実行に非常に時間がかかります。テストする場合は、%%time コマンドを使用してください (テストは 1 回のみ)。

次のグラフは、Series と ndarray のパフォーマンスを比較しています。

上の図からわかるように、データが 100,000 行未満の場合、ndarray は Series よりもパフォーマンスが優れています。データ行の数が 100 万行を超える場合、Series のパフォーマンスは ndarray よりわずかに優れています。もちろん、この 2 つの違いは特に明らかではありません。

そのため、通常の状況では、可能であれば、for ループを使用することをお勧めします。数値が特に大きくない場合は、計算に ndarray (つまり、df['col'].values) を使用することをお勧めします。稼働率は比較的低いほうだと言えます。

以上がPython: Pandas が効率的に動作する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!