写了个采集爬虫,采集了大概180万条URL,现在要给它平均分割成多份,然后保存文件。请问要怎么做比较好。
学习是最好的投资!
mongo와 함께 제공되는 도구를 사용하여 json, cvs 또는 txt 형식으로 내보냅니다.
json
cvs
txt
형식은
데이터베이스는 test이고, collections은 col입니다. 내부 데이터는 다음과 같습니다
test
collections
col
이제 세 개의 파일로 동일하게 내보냅니다.
스크립트를 작성하고 시도해 볼 수 있습니다.
설명: -d는 데이터베이스를 지정하고, -c는 컬렉션을 지정하고, -q는 쿼리를 지정하며 다음 파일 형식이 지원됩니다. json、cvs、txt
json、cvs、txt
일반적으로 180w 데이터는 분할할 필요가 없습니다. 샤드키 선택 원칙은 공식문서에 실제로 자세히 설명되어 있으니 참고하시면 좋을 것 같습니다.
mongo 자체 도구 사용
mongo와 함께 제공되는 도구를 사용하여
json
,cvs
또는txt
형식으로 내보냅니다.형식은
입니다. 으아아아밤 하나 주세요
데이터베이스는
으아아아test
이고,collections
은col
입니다. 내부 데이터는 다음과 같습니다이제 세 개의 파일로 동일하게 내보냅니다.
으아아아스크립트를 작성하고 시도해 볼 수 있습니다.
설명: -d는 데이터베이스를 지정하고, -c는 컬렉션을 지정하고, -q는 쿼리를 지정하며 다음 파일 형식이 지원됩니다.
json、cvs、txt
일반적으로 180w 데이터는 분할할 필요가 없습니다.
샤드키 선택 원칙은 공식문서에 실제로 자세히 설명되어 있으니 참고하시면 좋을 것 같습니다.