Carian Internet selalunya termasuk rentetan yang tidak masuk akal seperti "putjbtghguhjjjanika." Mengenal pasti "carian omong kosong" ini boleh memberi manfaat untuk menapis hasil yang tidak berkaitan dan mengenal pasti kemungkinan spam atau aktiviti berniat jahat.
Satu pendekatan untuk mengesan omong kosong ialah menganalisis peralihan aksara. Dalam bahasa Inggeris, kebarangkalian peralihan antara pasangan huruf biasa (cth., "th") adalah tinggi. Walau bagaimanapun, secara omong kosong, kebarangkalian ini mungkin menyimpang dengan ketara. Dengan membina model kebarangkalian peralihan daripada teks bahasa Inggeris yang sah, anda boleh mengira skor untuk pertanyaan berdasarkan hasil darab kebarangkalian peralihannya.
Sebagai alternatif, teknik pembelajaran mesin seperti rantai Markov boleh menyediakan pendekatan yang lebih komprehensif . Dengan mencipta model urutan aksara, rantai Markov menetapkan kebarangkalian kepada pelbagai pembentukan perkataan. Pertanyaan yang menyimpang dengan ketara daripada kebarangkalian ini boleh diklasifikasikan sebagai omong kosong.
Berikut ialah beberapa pertimbangan utama apabila melaksanakan algoritma pengesanan omong kosong:
Contoh tambahan kemungkinan carian omong kosong termasuk:
Dengan memasukkan teknik pengesanan ini ke dalam enjin carian anda, anda boleh menapis carian omong kosong, meningkatkan kaitan hasil anda dan mengurangkan kesan kemungkinan spam atau aktiviti berniat jahat pada tapak web anda.
Atas ialah kandungan terperinci Tajuknya mungkin: Bagaimana Kami Boleh Mengesan Pertanyaan Omong kosong dengan Berkesan dalam Enjin Carian?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!