Saya baru-baru ini merangkak untuk berita berkaitan saham Apa yang saya bayangkan pada mulanya ialah apabila berita baharu dikeluarkan, program akan menghantar kandungan terkini ke peti mel anda melalui e-mel.
Jadi saya ingin menyimpan tajuk berita dan kandungan ke dalam pangkalan data Apabila kandungan dikemas kini, bandingkan kandungan baharu dengan senarai tajuk dalam pangkalan data untuk melihat jika ia sudah wujud, maka ia tidak akan dihantar . Jika tidak, kemudian Hantar ke e-mel.
Tetapi apabila bilangan bertambah, kelajuan pertanyaan senarai akan menjadi perlahan. Adakah terdapat kaedah lain yang anda boleh ajar saya?
Deduplikasi tugas crawler
Simpan pautan yang ditangkap ke dalam set dan semak sama ada pautan baharu itu ada dalam set.
Terdapat banyak cara untuk membuang pendua, seperti set atau penapis Bloom di atas, yang boleh menggunakan memori dengan berkesan dan meningkatkan kecekapan