分别从几个固定的网站上爬取数据;为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?
需要存储url数目,大概初期在100k-1000k之间。
Kumpul dengan redisPautan
Gunakan set, sifat set yang tidak berulang sangat sesuai.
$key = 'URL_HASH'; if(!$redis->hGet($key, md5($url))){ // do something ... // 抓取一个 $url 后 $redis->hSet($key, md5($url), true); }
Apa yang perlu diperhatikan di sini ialah jika ia berbilang benang, proses lain mesti dipertimbangkan Anda boleh menukar nilai bool kepada nilai penghitungan.
Kumpul dengan redis
Pautan
Gunakan set, sifat set yang tidak berulang sangat sesuai.
Apa yang perlu diperhatikan di sini ialah jika ia berbilang benang, proses lain mesti dipertimbangkan Anda boleh menukar nilai bool kepada nilai penghitungan.