要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:
1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。
不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。
私も同様の問題に遭遇しましたが、最終的な選択は Excel を使用することでした。
当時の私のニーズは、毎回数百個のデータをクロールするだけで、そのたびにデータを破棄していました。どちらを選択するかはあなたのニーズ次第です。まず私の状況について話させてください。
Excel を使用する方が便利でした。
データが何千件あるかにもよりますが、今後も増え続けることを考えると、後で操作するために直接データベースに保存した方が便利です。 Excelで保存することもできますので、今すぐExcelに保存しておくと便利ですそれだけでした。クロールされたデータを保存するために使用されます。操作スタイルは非常に簡単です。
今後データが大きくなってくると、Excelでは対応しきれなくなると思うので、直接インポートするスクリプトを書きます。 Excel のデータをデータベースに変換します。
質問者は MySQL に慣れていないことを心配していますが、他のデータベースを学習したことがあれば、MySQL を学習することはまったく問題ありません。
データベース
遅かれ早かれ、あなたにご連絡しなければなりません
データが少なく、テキスト ファイルを直接保存できるため、Excel よりも優れています...
これは、ストレージに使用されるデータベースとは関係ないと思います。クローラーによってクロールされたデータは、後で execl データをデータベースにインポートするプログラムを作成できます。これにより、速度も向上します。クローラー処理中にデータベースに保存される場合はあまり良くありません
mysql が理解できない場合は、openpyxl を使用してください
CSV テキスト ファイルとして保存すると、Excel で開くことができ、データベースにインポートすることもできて便利です。
SQLite
データが少なく同時実行性が低い場合は、Sqlite を使用してください。SQL に慣れていない場合は、たとえば、peewee~
を使用してください。後処理には必ずデータベースを使用してください。