使用python的pandas模块时，查找和修改dataFrame中的值速度非常慢，请问是什么原因，有什么好办法解决吗？

Question

最近在用pandas做一个机器学习的项目，训练集大概2G。我用的dataFrame来操作数据，对训练集做了一次groupby和mean的操作，速度还挺快的，但把得到的结果赋值给用户参数（也是一个dataframe表）的时候，速度缺特别...

阿神 · Answer

Pandas には、DataFrame の行をループするための df.iterrows() のジェネレーターがあり、これが最も効率的です。

詳細については、ドキュメントを参照してください:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html

ringa_lee · Answer

私はこれほど大きなことをしたことはありませんが、私の経験では、df を 1 つずつ操作しないのが最善です。基本的には遅く、列全体の操作ははるかに高速です。
1.
空の値をすべて df に書き込んでから、
をマージするのが最善ですが、場合によっては直接追加することが避けられない
2. del ステートメントを直接使用します
3. マージアイデアも使用して
を変更し、元の値をカバーします

高洛峰 · Answer

割り当てが遅いとは思いません
self.user_params.loc[user,'bias'] は、第 1 レベルのインデックスから第 2 レベルのインデックスを取得するのと同じですが、これは非常に遅いはずです

PHP中文网 · Answer

loc が最も遅いです。代わりに ix を使用してみてください。ループを構築するには iterrows を使用するのが最善です。