84669 人學習
152542 人學習
20005 人學習
5487 人學習
7821 人學習
359900 人學習
3350 人學習
180660 人學習
48569 人學習
18603 人學習
40936 人學習
1549 人學習
1183 人學習
32909 人學習
分別從幾個固定的網站上爬取資料;為了url去重,我用的字串型儲存?還是用的sets型儲存?
需要儲存url數目,大概初期在100k-1000k之間。
用redis集合連結
用集合吧,集合的不重複性太適用了。
$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); }
這裡要注意的是,如果是多執行緒的,要考慮其他行程,可以吧 bool 值改為枚舉值。
用redis集合
連結
用集合吧,集合的不重複性太適用了。
這裡要注意的是,如果是多執行緒的,要考慮其他行程,可以吧 bool 值改為枚舉值。