84669 人学习
152542 人学习
20005 人学习
5487 人学习
7821 人学习
359900 人学习
3350 人学习
180660 人学习
48569 人学习
18603 人学习
40936 人学习
1549 人学习
1183 人学习
32909 人学习
分别从几个固定的网站上爬取数据;为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?
需要存储url数目,大概初期在100k-1000k之间。
用redis集合链接
用集合吧,集合的不重复性太适用了。
$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); }
这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。
用redis集合
链接
用集合吧,集合的不重复性太适用了。
这里需要注意的是,如果是多线程的,要考虑其他进程,可以吧 bool 值改为枚举值。