Ich habe in letzter Zeit nach aktienbezogenen Nachrichten gesucht. Ursprünglich hatte ich mir vorgestellt, dass das Programm die neuesten Inhalte per E-Mail an Ihr Postfach sendet, wenn neue Nachrichten veröffentlicht werden.
Ich möchte also die Nachrichtentitel und Inhalte in der Datenbank speichern. Wenn der Inhalt aktualisiert wird, vergleiche ich den neuen Inhalt mit der Titelliste in der Datenbank, um zu sehen, ob er bereits vorhanden ist. Wenn er bereits vorhanden ist, wird er nicht gesendet . Wenn nicht, dann an E-Mail senden.
Aber wenn die Anzahl zunimmt, wird die Geschwindigkeit der Listenabfrage langsamer. Gibt es eine andere Methode, die Sie mir beibringen können?
爬虫任务去重
抓过的链接存到一个set中,检查新链接是否在集合中即可。
去重有很多方法,比如楼上的set或者布隆过滤器都可以有效的使用内存,提升效率