使用python的pandas模块时，查找和修改dataFrame中的值速度非常慢，请问是什么原因，有什么好办法解决吗？

Question

最近在用pandas做一个机器学习的项目，训练集大概2G。我用的dataFrame来操作数据，对训练集做了一次groupby和mean的操作，速度还挺快的，但把得到的结果赋值给用户参数（也是一个dataframe表）的时候，速度缺特别...

阿神 · Answer

Pandas dispose d'un générateur de df.iterrows() pour parcourir les lignes de DataFrame, ce qui est le plus efficace.

Pour plus de détails, veuillez consulter la documentation :
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.iterrows.html

ringa_lee · Answer

Je n'ai jamais rien fait de cette ampleur, mais mon expérience est qu'il est préférable de ne pas opérer df un par un, c'est fondamentalement lent et l'ensemble du fonctionnement de la colonne est beaucoup plus rapide
Ajouter. (ajouter)
Il est préférable d'écrire toutes les nouvelles valeurs dans un df vide, puis de fusionner
, mais parfois il est inévitable d'ajouter directement
2 Il est plus rapide de supprimer
. et utilisez directement l'instruction del
3 . Changer
adopte également l'idée de fusionner, en écrasant la valeur d'origine

高洛峰 · Answer

Je ne pense pas que l'affectation soit lente
self.user_params.loc[user,'bias'] équivaut à prendre l'index de deuxième niveau de l'index de premier niveau, ce qui devrait être très lent
Pouvez-vous mettre l'élément et l'utilisateur. Que diriez-vous de le diviser en deux trames de données ?

PHP中文网 · Answer

loc est le plus lent. Essayez d'utiliser ix à la place. Il est préférable d'utiliser des iterrows pour construire une boucle.