分别从几个固定的网站上爬取数据;为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?
需要存储url数目,大概初期在100k-1000k之间。
redis로 수집링크
세트를 사용하세요. 세트의 비반복적인 성격이 매우 적합합니다.
으아아아
여기서 주목해야 할 점은 멀티스레드이고 다른 프로세스를 고려해야 하는 경우 bool 값을 열거형 값으로 변경할 수 있다는 것입니다.
redis로 수집
링크
세트를 사용하세요. 세트의 비반복적인 성격이 매우 적합합니다.
으아아아
여기서 주목해야 할 점은 멀티스레드이고 다른 프로세스를 고려해야 하는 경우 bool 값을 열거형 값으로 변경할 수 있다는 것입니다.