要处理的文件不多,就是几万条,都是些简单的处理,Excel暂时也够用。大概思路两条:
1、python抓到的数据通过Python DB API 储存到mysql中再做处理。
2、直接把爬取到的资料用Phthon XlsxWriter模块生成Execl文件(.xlsx)。
不知道哪条路线对自动生成文件和后期的处理比较方便。自己不太会用mysql,所以比较倾向用XlsxWriter模块生成Execl文件,只是看了XlsxWriter模块的一些文档,也只是编写数据内容和格式,然后生成Execl文件,不知道有没有爬取的数据自动生成Execl文件比较简单的实现(有一些爬虫的框架可以实现,但是暂时没有学习框架,因为只是想实现一些简单的功能而已)。
저도 비슷한 문제에 직면했는데 최종 선택은 Excel을 사용하는 것이었습니다.
모두 귀하의 필요에 따라 더 편리한 것을 선택하시게 됩니다.
당시 제 요구사항은 한 번에 수백 개의 데이터만 크롤링하는 것이었고, 사용할 때마다 버리는 것이었습니다.
그래서 Excel을 사용하는 것이 더 편리했습니다. openpyxl.
크롤링된 데이터는 스타일 조작이 필요하지 않아 사용이 매우 간단합니다.
수천개의 데이터를 가지고 있느냐에 따라 다르겠지만, 앞으로도 계속 늘어날 것이라는 점을 고려한다면 나중에 작업할 수 있도록 데이터베이스에 직접 저장하는 것이 더 편리합니다.
그럼 또, 지금 엑셀에 저장하는 것이 요구사항을 충족시킬 수 있다고 생각한다면, 그리고 더 편리하다면 엑셀에 저장하는 것도 가능합니다.
앞으로 데이터가 늘어나면 엑셀이 수요를 충족시킬 수 없을 것 같아서요. 엑셀의 데이터를 데이터베이스로 직접 가져오는 스크립트를 작성합니다.
질문을 보면 질문자는 MySQL에 익숙하지 않다고 걱정하고 있습니다. 이는 전혀 문제가 되지 않습니다. 다른 데이터베이스를 배웠다면 MySQL을 배우는 것은 어렵지 않습니다.
데이터베이스
조만간 우리는 서로 연락해야 합니다
데이터가 적고 엑셀보다 직접 텍스트 파일 저장이 더 좋습니다...
이것은 어떤 데이터베이스가 저장에 사용되는지와는 관련이 없다고 생각합니다. 크롤러가 크롤링한 데이터를 execl에 저장하고 나중에 자체 프로그램을 작성하여 execl 데이터를 데이터베이스로 가져올 수도 있습니다. 크롤러 처리 속도가 크롤링 중에 저장되는 것은 좋지 않습니다
mysql을 모른다면 openpyxl을 사용하세요
CSV 텍스트 파일로 저장하면 Excel로 열 수 있고 데이터베이스로 가져오기에도 편리합니다.
SQLite
데이터가 적고 동시성이 낮다면 Sqlite를 사용하세요. SQL에 익숙하지 않다면 ORM을 사용하세요. 예를 들어 peewee~
후처리에는 반드시 데이터베이스를 사용하세요.