이 기사에서는 기본 중국 분석기, Paoding 플러그인, CJK 분석기, SmartCN 분석기 및 ICU 플러그인을 포함하여 Elasticsearch에서 중국 내용을 분석하기위한 몇 가지 솔루션에 대해 설명하고 장점 및 단점 및 적용 가능한 시나리오를 분석합니다.
중국 검색의 도전
중국어는 단어 나 형태소 (언어에서 가장 작은 의미있는 단위)를 나타내는 표표입니다. 함께 결합되면 그 의미는 완전히 새로운 단어를 나타냅니다. 또 다른 어려움은 단어와 문장 사이에 공백이 없으므로 컴퓨터가 단어가 시작되고 끝나는 위치를 알기가 어렵다는 것입니다.
화재 : 화재
산 : 산
Pinyin, 로마 화 된 만다린 형태 : Shū fǎ 컨텐츠를 이진화하는 분석기;
분석기 : 는 모든 한자를 단어 요소로 만 나눕니다. 따라서 휴대폰과 휴대폰의 두 가지 어휘 요소가 있습니다. Elasticsearch의
또는 와 같은 플러그인은 올바르게 처리하지 않기 때문입니다.
추가 개선 분사를 사용합니다.
Elasticsearch
플러그인은 더 이상 유지 관리되지는 않지만 매우 좋은 사전을 기반으로합니다
Chinese
standard
Chinese
플러그인 : standard
거의 업계 표준이며 우아한 솔루션으로 간주됩니다. 불행히도 Elasticsearch 용 플러그인은 유지되지 않으며 수정 후 버전 1.0.1에서만 실행할 수 있습니다. (설치 단계가 생략되고, 원본 텍스트가 제공됩니다) 설치 후 새로운 워드 세그먼트와 두 개의 수집기 : 및 가 나타납니다. 기본적으로 공개 분석기가 없으므로 새 분석기를 선언해야합니다. (구성 단계가 생략되고 원본 텍스트가 제공됩니다) 두 구성 모두 명확하고 고유 한 어휘 요소로 좋은 결과를 제공합니다. 또한 더 복잡한 문장을 다룰 때 매우 잘 작동합니다. paoding
분석기 : 텍스트 만 바이너리로 변환하는 매우 간단한 분석기. "휴대 전화"만 인덱스 paoding는 좋지만, 우리가 "랜턴 페스티벌 (Lantern Festival)"(랜턴 페스티벌)과 같은 더 긴 단어를 사용하면 랜턴 페스티벌과 Xiao Festival, "랜턴 페스티벌"을 의미합니다. 그리고 각각 "Xiao Festival". paoding
max_word_len
most_word
cjk
ICU 플러그인 : 또 다른 공식 플러그인. (설치 단계는 생략되고 원본 텍스트가 제공됩니다) 영어 이외의 언어를 다루는 경우이 플러그인을 사용하는 것이 좋습니다. 그것은 , , 등과 같은 많은 강력한 분석 도구뿐만 아니라 A 워드 세그먼터를 공개합니다. 그것은 중국어 그룹을 추론하기 위해 단어 빈도에 대한 정보를 포함하는 중국어와 일본 사전을 사용합니다. "휴대 전화"에서는 모든 것이 정상이며 예상대로 작동하지만 "랜턴 페스티벌"에서는 랜턴 페스티벌과 페스티벌 - "랜턴 페스티벌"과 "축제"가 "랜턴 페스티벌보다 더 중요하기 때문입니다. ". 흔한. 手机
smartcn
는 "랜턴 페스티벌"에서 약간 실망하지만 전통적인 중국인을 다루는 데 매우 능숙합니다. smartcn
전통적인 중국 지원 smartcn_tokenizer
smartcn
paoding
elasticsearch-analysis-stconvert
cjk
icu_tokenizer
(FAQ 부품 생략, 원본 텍스트 제공)
위 내용은 Elasticsearch를 사용한 효율적인 중국 검색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!