Carian Cina yang cekap dengan Elasticsearch
Carian Cina Elasticsearch: Penganalisis dan Amalan Terbaik
Analisis dan leksikisasi adalah penting dalam indeks kandungan Elasticsearch, terutamanya ketika berurusan dengan bahasa bukan bahasa Inggeris. Bagi Cina, proses ini lebih rumit kerana ciri -ciri watak -watak Cina dan kekurangan ruang antara kata -kata dan ayat.
Artikel ini membincangkan beberapa penyelesaian untuk menganalisis kandungan Cina dalam Elasticsearch, termasuk penganalisis cina lalai, pemalam PAODING, CJK Analyzer, SmartCN Analyzer dan ICU plug-in, dan menganalisis kelebihan dan kekurangan mereka dan senario yang berkenaan.
Cabaran carian Cina
Watak -watak Cina adalah ideogram yang mewakili perkataan atau morfem (unit yang paling bermakna dalam bahasa). Apabila digabungkan bersama, maknanya akan berubah, mewakili perkataan yang sama sekali baru. Satu lagi kesukaran ialah tidak ada ruang antara kata -kata dan ayat, yang menjadikan sukar bagi komputer untuk mengetahui di mana perkataan bermula dan berakhir.
Walaupun anda hanya menganggap bahasa Mandarin (bahasa Cina rasmi dan orang Cina yang paling banyak digunakan di dunia), terdapat puluhan ribu watak Cina, walaupun anda sebenarnya menulis bahasa Cina, anda hanya perlu tahu tiga hingga empat ribu Watak cina. Sebagai contoh, "Volcano" (Volcano) sebenarnya gabungan dua watak Cina berikut:
- api: api
- gunung: gunung
Kata -kata kami mesti cukup pintar untuk mengelakkan memisahkan kedua -dua watak Cina ini, kerana makna mereka berbeza dari ketika mereka dipisahkan.
Kesukaran lain ialah varian ejaan yang digunakan:
- Cina yang dipermudahkan: kaligrafi
- Cina tradisional, lebih kompleks dan lebih kaya: Kaedah buku
- pinyin, bentuk romanisasi mandarin: shū fǎ
Analyzer Cina di Elasticsearch
Pada masa ini, Elasticsearch menyediakan penganalisis Cina berikut:
- Default
Chinese
Analyzer, berdasarkan kelas yang tidak disengajakan dalam Lucene 4; - plugin, walaupun tidak lagi dikekalkan, didasarkan pada kamus yang sangat baik;
paoding
Analyzer, yang menghidupkan kandungan;
-
cjk
Analyzer, plug-in yang disokong secara rasmi; pemalam ICU dan peranti segmentasi perkataannya. -
smartcn
Penganalisis ini sangat berbeza -beza, dan kami akan membandingkan prestasi mereka dengan perkataan ujian mudah "telefon bimbit". "Telefon bimbit" bermaksud "telefon bimbit", yang terdiri daripada dua watak Cina, yang mewakili "tangan" dan "mudah alih". Perkataan "ji" juga merupakan banyak perkataan lain:
robot: robot
- pistol mesin: pistol mesin
- Peluang: Peluang
- Participle kami tidak dapat memecah watak -watak Cina ini kerana jika saya mencari "telefon bimbit", saya tidak mahu apa -apa dokumentasi mengenai Rambo memiliki pistol mesin.
- kami akan menguji penyelesaian ini menggunakan API
Default Analyzer: Plug-in: Plugin ICU: Satu lagi plugin rasmi. (Langkah-langkah pemasangan ditinggalkan, teks asal disediakan) Jika anda berurusan dengan mana-mana bahasa bukan bahasa Inggeris, disarankan untuk menggunakan plugin ini. Ia mendedahkan segmen perkataan , serta banyak alat analisis yang kuat seperti _analyze
Chinese
Analyzer: Ia hanya membahagikan semua watak Cina ke dalam elemen perkataan. Oleh itu, kami mendapat dua elemen leksikal: telefon bimbit dan telefon bimbit. Analyzer Chinese
tidak lama lagi dan tidak lama lagi akan digantikan oleh standard
dan harus dielakkan. paoding
plug-in: paoding
baru dan dua pengumpul: paoding
dan max_word_len
. Secara lalai, tidak ada penganalisis awam, jadi kita perlu mengisytiharkan penganalisis baru. (Langkah -langkah konfigurasi ditinggalkan, teks asal disediakan) Kedua -dua konfigurasi memberikan hasil yang baik dengan unsur -unsur leksikal yang jelas dan unik. Ia juga berkelakuan baik apabila berurusan dengan ayat yang lebih kompleks. most_word
cjk
Penganalisis yang sangat mudah yang hanya menukar teks ke dalam binari. "Telefon bimbit" hanya indeks , yang bagus, tetapi jika kita menggunakan kata -kata yang lebih panjang, seperti "Festival Lantern" (Festival Lantern), dua perkataan akan dihasilkan: Festival Lantern dan Festival Xiao, yang bermaksud "Festival Lantern" dan masing -masing "Festival Xiao". 手机
smartcn
Sangat mudah dipasang. (Langkah -langkah pemasangan ditinggalkan, teks asal disediakan) Ia memperlihatkan penganalisis baru, serta smartcn
segmen perkataan, menggunakan Lucene's smartcn_tokenizer
. Ia menggunakan suite kebarangkalian untuk mencari segmentasi perkataan terbaik, menggunakan model Markov tersembunyi dan sejumlah besar teks latihan. Oleh itu, kamus latihan yang cukup baik telah tertanam -contoh -contoh kita adalah berstahan dengan betul. SmartChineseAnalyzer
icu_tokenizer
, icu_normalizer
, icu_folding
, dan lain -lain. Ia menggunakan kamus Cina dan Jepun yang mengandungi maklumat mengenai kekerapan perkataan untuk menyimpulkan kumpulan watak Cina. Pada "telefon bimbit", semuanya normal dan berfungsi seperti yang diharapkan, tetapi pada "Festival Lantern", dua perkataan akan dihasilkan: Festival Lantern dan Festival - Ini kerana "Festival Lantern" dan "Festival" lebih penting daripada "Festival Lantern ". Biasa. icu_collation
perbandingan hasil (borang yang ditinggalkan, teks asal disediakan)
Dari sudut pandangan saya, dan paoding
mendapat hasil yang terbaik. smartcn
Kata participle sangat buruk, chinese
agak mengecewakan pada "Festival Lantern", tetapi sangat baik untuk berurusan dengan Cina tradisional. icu_tokenizer
sokongan tradisional Cina
Anda mungkin perlu memproses Cina tradisional dari dokumen atau permintaan carian pengguna. Anda memerlukan langkah normalisasi untuk menukar input tradisional ini ke dalam bahasa Cina moden kerana plugin seperti smartcn
atau paoding
jangan mengendalikannya dengan betul.
Anda boleh mengendalikannya melalui aplikasi anda, atau cuba menggunakan plugin elasticsearch-analysis-stconvert
untuk mengendalikannya secara langsung di Elasticsearch. Ia boleh menukar watak tradisional dan mudah di kedua -dua arah. (Langkah pemasangan ditinggalkan, teks asal telah disediakan)
Penyelesaian terakhir adalah menggunakan cjk
: jika anda tidak dapat memasukkan participle dengan betul, anda masih sangat mungkin menangkap dokumentasi yang diperlukan dan kemudian gunakan icu_tokenizer
(juga cukup baik) untuk meningkatkan kaitan.
Penambahbaikan selanjutnya
Tidak ada penyelesaian sejagat yang sempurna untuk analisis Elasticsearch, dan Cina tidak terkecuali. Anda mesti menggabungkan dan membina penganalisis anda sendiri berdasarkan maklumat yang telah anda perolehi. Sebagai contoh, saya menggunakan participle cjk
dan smartcn
pada medan carian, menggunakan pertanyaan berbilang bidang dan multi-perlawanan.
(bahagian FAQ ditinggalkan, teks asal disediakan)
Atas ialah kandungan terperinci Carian Cina yang cekap dengan Elasticsearch. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Dalam php, kata laluan_hash dan kata laluan 1) password_hash menjana hash yang mengandungi nilai garam untuk meningkatkan keselamatan. 2) Kata Laluan_verify Sahkan kata laluan dan pastikan keselamatan dengan membandingkan nilai hash. 3) MD5 dan SHA1 terdedah dan kekurangan nilai garam, dan tidak sesuai untuk keselamatan kata laluan moden.

PHP dan Python masing -masing mempunyai kelebihan mereka sendiri, dan memilih mengikut keperluan projek. 1.PHP sesuai untuk pembangunan web, terutamanya untuk pembangunan pesat dan penyelenggaraan laman web. 2. Python sesuai untuk sains data, pembelajaran mesin dan kecerdasan buatan, dengan sintaks ringkas dan sesuai untuk pemula.

PHP adalah bahasa skrip yang digunakan secara meluas di sisi pelayan, terutamanya sesuai untuk pembangunan web. 1.PHP boleh membenamkan HTML, memproses permintaan dan respons HTTP, dan menyokong pelbagai pangkalan data. 2.PHP digunakan untuk menjana kandungan web dinamik, data borang proses, pangkalan data akses, dan lain -lain, dengan sokongan komuniti yang kuat dan sumber sumber terbuka. 3. PHP adalah bahasa yang ditafsirkan, dan proses pelaksanaan termasuk analisis leksikal, analisis tatabahasa, penyusunan dan pelaksanaan. 4.Php boleh digabungkan dengan MySQL untuk aplikasi lanjutan seperti sistem pendaftaran pengguna. 5. Apabila debugging php, anda boleh menggunakan fungsi seperti error_reporting () dan var_dump (). 6. Mengoptimumkan kod PHP untuk menggunakan mekanisme caching, mengoptimumkan pertanyaan pangkalan data dan menggunakan fungsi terbina dalam. 7

PHP digunakan secara meluas dalam e-dagang, sistem pengurusan kandungan dan pembangunan API. 1) e-dagang: Digunakan untuk fungsi keranjang belanja dan pemprosesan pembayaran. 2) Sistem Pengurusan Kandungan: Digunakan untuk penjanaan kandungan dinamik dan pengurusan pengguna. 3) Pembangunan API: Digunakan untuk Pembangunan API RESTful dan Keselamatan API. Melalui pengoptimuman prestasi dan amalan terbaik, kecekapan dan pemeliharaan aplikasi PHP bertambah baik.

Jenis PHP meminta untuk meningkatkan kualiti kod dan kebolehbacaan. 1) Petua Jenis Skalar: Oleh kerana Php7.0, jenis data asas dibenarkan untuk ditentukan dalam parameter fungsi, seperti INT, Float, dan lain -lain. 2) Return Type Prompt: Pastikan konsistensi jenis nilai pulangan fungsi. 3) Jenis Kesatuan Prompt: Oleh kerana Php8.0, pelbagai jenis dibenarkan untuk ditentukan dalam parameter fungsi atau nilai pulangan. 4) Prompt jenis yang boleh dibatalkan: membolehkan untuk memasukkan nilai null dan mengendalikan fungsi yang boleh mengembalikan nilai null.

PHP masih dinamik dan masih menduduki kedudukan penting dalam bidang pengaturcaraan moden. 1) kesederhanaan PHP dan sokongan komuniti yang kuat menjadikannya digunakan secara meluas dalam pembangunan web; 2) fleksibiliti dan kestabilannya menjadikannya cemerlang dalam mengendalikan borang web, operasi pangkalan data dan pemprosesan fail; 3) PHP sentiasa berkembang dan mengoptimumkan, sesuai untuk pemula dan pemaju yang berpengalaman.

PHP sesuai untuk pembangunan web, terutamanya dalam pembangunan pesat dan memproses kandungan dinamik, tetapi tidak baik pada sains data dan aplikasi peringkat perusahaan. Berbanding dengan Python, PHP mempunyai lebih banyak kelebihan dalam pembangunan web, tetapi tidak sebaik python dalam bidang sains data; Berbanding dengan Java, PHP melakukan lebih buruk dalam aplikasi peringkat perusahaan, tetapi lebih fleksibel dalam pembangunan web; Berbanding dengan JavaScript, PHP lebih ringkas dalam pembangunan back-end, tetapi tidak sebaik JavaScript dalam pembangunan front-end.

PHP dan Python mempunyai kelebihan dan kekurangan mereka sendiri, dan pilihannya bergantung kepada keperluan projek dan keutamaan peribadi. 1.PHP sesuai untuk pembangunan pesat dan penyelenggaraan aplikasi web berskala besar. 2. Python menguasai bidang sains data dan pembelajaran mesin.
