Redis를 사용하여 중복을 제거하는 방법은 무엇입니까?
过去多啦不再A梦
过去多啦不再A梦 2017-04-25 09:02:08
0
3
930

여러 고정 웹사이트에서 각각 데이터를 크롤링합니다.
중복된 ​​URL을 제거하려면 <set get>의 문자열 유형 저장소를 사용해야 합니까? 아니면 <SADD SMEMBERS>의 세트 유형 저장소를 사용해야 합니까?

저장해야 하는 URL 수는 초기에는 100,000~1,000,000개 정도일 것입니다.

过去多啦不再A梦
过去多啦不再A梦

모든 응답(3)
世界只因有你

redis로 수집
링크

巴扎黑

세트를 사용하세요. 세트의 비반복적인 성격이 매우 적합합니다.

PHPzhong

으아아아

여기서 주목해야 할 점은 멀티스레드이고 다른 프로세스를 고려해야 하는 경우 bool 값을 열거형 값으로 변경할 수 있다는 것입니다.

최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿