网络爬虫 - python爬虫爬取资料,是直接生成Excel文件还是存入Mysql有利于后期处理。
大家讲道理
大家讲道理 2017-04-18 10:20:34
0
8
930

要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:

1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。

不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

membalas semua(8)
大家讲道理

Saya menghadapi masalah yang sama, dan pilihan terakhir ialah menggunakan excel.
Semuanya bergantung pada keperluan anda yang mana lebih mudah untuk anda pilih.

Keperluan saya pada masa itu hanya untuk merangkak beberapa ratus keping data pada satu-satu masa, dan saya akan membuangnya selepas setiap penggunaan
Jadi lebih mudah untuk menggunakan excel, saya menggunakan openpyxl.
Ia hanya digunakan untuk menyimpan data yang dirangkak tidak memerlukan manipulasi gaya, jadi ia agak mudah untuk digunakan.

Ia bergantung kepada berapa ribu keping data yang anda miliki Jika anda menganggap ia akan terus meningkat pada masa hadapan, lebih mudah untuk menyimpannya terus dalam pangkalan data untuk operasi kemudian. jika anda fikir menyimpannya dalam Excel sekarang boleh memenuhi keperluan anda, Dan jika ia lebih mudah, anda juga boleh menyimpannya dalam excel
Apabila data berkembang pada masa hadapan, saya rasa excel tidak dapat memenuhi permintaan, jadi Saya menulis skrip untuk mengimport terus data dalam excel ke dalam pangkalan data

Melihat soalan itu, penyoal bimbang dia tidak biasa dengan MySQL Ini tidak menjadi masalah sama sekali Jika anda telah mempelajari pangkalan data lain, belajar MySQL tidak sukar.

阿神

Pangkalan data

Lambat laun kita perlu menghubungi satu sama lain

Dengan kurang data, storan fail teks langsung adalah lebih baik daripada Excel...

PHPzhong

Saya rasa ini tiada kaitan dengan pangkalan data yang digunakan untuk penyimpanan Anda boleh menyimpan data yang dirangkak oleh perangkak ke dalam execl, dan kemudian menulis program anda sendiri untuk mengimport data execl ke dalam pangkalan data kelajuan pemprosesan crawler. Jika semasa proses merangkak Tidak baik untuk memasukkannya ke dalam storan

PHPzhong

Jika anda tidak faham mysql, gunakan sahaja openpyxl

伊谢尔伦

Simpannya sebagai fail teks csv, yang masih boleh dibuka dengan Excel dan juga mudah untuk diimport ke dalam pangkalan data.

刘奇

SQLite

大家讲道理

Jika anda mempunyai sedikit data dan konkurensi rendah, gunakan Sqlite Jika anda tidak biasa dengan SQL, gunakan ORM, contohnya, peewee~

巴扎黑

Pasti menggunakan pangkalan data untuk pemprosesan pasca.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan