分别从几个固定的网站上爬取数据;为了url去重,我用<set get>的字符串型存储?还是用<SADD SMEMBERS>的sets型存储?
需要存储url数目,大概初期在100k-1000k之间。
redisで収集リンク
コレクションを使用します。コレクションの非反復性は非常に当てはまります。
リーリー
ここで、マルチスレッドの場合は、他のプロセスを考慮する必要があることに注意してください。ブール値を列挙値に変更できます。
redisで収集
リンク
コレクションを使用します。コレクションの非反復性は非常に当てはまります。
リーリー
ここで、マルチスレッドの場合は、他のプロセスを考慮する必要があることに注意してください。ブール値を列挙値に変更できます。