여러 고정 웹사이트에서 각각 데이터를 크롤링합니다. 중복된 URL을 제거하려면 <set get>의 문자열 유형 저장소를 사용해야 합니까? 아니면 <SADD SMEMBERS>의 세트 유형 저장소를 사용해야 합니까?
저장해야 하는 URL 수는 초기에는 100,000~1,000,000개 정도일 것입니다.
redis로 수집링크
세트를 사용하세요. 세트의 비반복적인 성격이 매우 적합합니다.
으아아아
여기서 주목해야 할 점은 멀티스레드이고 다른 프로세스를 고려해야 하는 경우 bool 값을 열거형 값으로 변경할 수 있다는 것입니다.
redis로 수집
링크
세트를 사용하세요. 세트의 비반복적인 성격이 매우 적합합니다.
으아아아
여기서 주목해야 할 점은 멀티스레드이고 다른 프로세스를 고려해야 하는 경우 bool 값을 열거형 값으로 변경할 수 있다는 것입니다.