我手头有许多个上百M的csv存储一些数据,需要经常使用pandas和matplotlib对这些数据读取并进行绘图。在绘图之前,通常要进行预处理,切片等等清洗操作,因为要经常对figure进行交互操作和作报告,所以我在jupyter notebook中使用%matplotlib notebook进行操作和交互,我是将这些由原始数据产生的中间数据由csv保存,以便下次展示时直接读取csv获得中间数据,还是使用pickle保存,后续使用时读取pickle更快?
%matplotlib notebook
肯定是csv安全啊,pickle似乎换一个python版本都可能导致读取失败的,这个不是通用格式。几百兆的话,csv其实读取速度不慢。更何况还有hdf5,这些才是正经的数据交换格式。
csv够用了,如果你觉得还不够快可以试试hdf5文件
肯定是csv安全啊,pickle似乎换一个python版本都可能导致读取失败的,这个不是通用格式。几百兆的话,csv其实读取速度不慢。更何况还有hdf5,这些才是正经的数据交换格式。
csv够用了,如果你觉得还不够快可以试试hdf5文件