要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:
1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。
不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。
Saya menghadapi masalah yang sama, dan pilihan terakhir ialah menggunakan excel.
Semuanya bergantung pada keperluan anda yang mana lebih mudah untuk anda pilih.
Keperluan saya pada masa itu hanya untuk merangkak beberapa ratus keping data pada satu-satu masa, dan saya akan membuangnya selepas setiap penggunaan
Jadi lebih mudah untuk menggunakan excel, saya menggunakan openpyxl.
Ia hanya digunakan untuk menyimpan data yang dirangkak tidak memerlukan manipulasi gaya, jadi ia agak mudah untuk digunakan.
Ia bergantung kepada berapa ribu keping data yang anda miliki Jika anda menganggap ia akan terus meningkat pada masa hadapan, lebih mudah untuk menyimpannya terus dalam pangkalan data untuk operasi kemudian. jika anda fikir menyimpannya dalam Excel sekarang boleh memenuhi keperluan anda, Dan jika ia lebih mudah, anda juga boleh menyimpannya dalam excel
Melihat soalan itu, penyoal bimbang dia tidak biasa dengan MySQL Ini tidak menjadi masalah sama sekali Jika anda telah mempelajari pangkalan data lain, belajar MySQL tidak sukar.Apabila data berkembang pada masa hadapan, saya rasa excel tidak dapat memenuhi permintaan, jadi Saya menulis skrip untuk mengimport terus data dalam excel ke dalam pangkalan data
Pangkalan data
Lambat laun kita perlu menghubungi satu sama lain
Dengan kurang data, storan fail teks langsung adalah lebih baik daripada Excel...
Saya rasa ini tiada kaitan dengan pangkalan data yang digunakan untuk penyimpanan Anda boleh menyimpan data yang dirangkak oleh perangkak ke dalam execl, dan kemudian menulis program anda sendiri untuk mengimport data execl ke dalam pangkalan data kelajuan pemprosesan crawler. Jika semasa proses merangkak Tidak baik untuk memasukkannya ke dalam storan
Jika anda tidak faham mysql, gunakan sahaja openpyxl
Simpannya sebagai fail teks csv, yang masih boleh dibuka dengan Excel dan juga mudah untuk diimport ke dalam pangkalan data.
SQLite
Jika anda mempunyai sedikit data dan konkurensi rendah, gunakan Sqlite Jika anda tidak biasa dengan SQL, gunakan ORM, contohnya, peewee~
Pasti menggunakan pangkalan data untuk pemprosesan pasca.