如何用redis去重?
过去多啦不再A梦
过去多啦不再A梦 2017-04-25 09:02:08
0
3
902

分别从几个固定的网站上爬取数据;
为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?

需要存储url数目,大概初期在100k-1000k之间。

过去多啦不再A梦
过去多啦不再A梦

membalas semua(3)
世界只因有你

Kumpul dengan redis
Pautan

巴扎黑

Gunakan set, sifat set yang tidak berulang sangat sesuai.

PHPzhong
$key = 'URL_HASH';
if(!$redis->hGet($key, md5($url))){
    // do something ...
    // 抓取一个 $url 后
    $redis->hSet($key, md5($url), true);
}

Apa yang perlu diperhatikan di sini ialah jika ia berbilang benang, proses lain mesti dipertimbangkan Anda boleh menukar nilai bool kepada nilai penghitungan.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan