백엔드 개발 PHP 튜토리얼 Elasticsearch를 사용한 효율적인 중국 검색

Elasticsearch를 사용한 효율적인 중국 검색

Feb 19, 2025 am 08:28 AM

elasticsearch 중국 검색 : 분석기 및 모범 사례 분석 및 어휘는 특히 영어가 아닌 언어를 다룰 때 Elasticsearch의 내용 지수에 중요합니다. 중국인의 경우,이 과정은 한자의 특성과 단어와 문장 사이의 공간 부족으로 인해 훨씬 ​​더 복잡합니다.

이 기사에서는 기본 중국 분석기, Paoding 플러그인, CJK 분석기, SmartCN 분석기 및 ICU 플러그인을 포함하여 Elasticsearch에서 중국 내용을 분석하기위한 몇 가지 솔루션에 대해 설명하고 장점 및 단점 및 적용 가능한 시나리오를 분석합니다.

중국 검색의 도전

중국어는 단어 나 형태소 (언어에서 가장 작은 의미있는 단위)를 나타내는 표표입니다. 함께 결합되면 그 의미는 완전히 새로운 단어를 나타냅니다. 또 다른 어려움은 단어와 문장 사이에 공백이 없으므로 컴퓨터가 단어가 시작되고 끝나는 위치를 알기가 어렵다는 것입니다.

만다린 (공식 중국어와 세계에서 가장 널리 사용되는 중국인) 만 고려하더라도 실제로 중국어를 쓰더라도 3 ~ 4 천만 있어야합니다. 한자. 예를 들어, "화산"(화산)은 실제로 다음 중 한자의 조합입니다.

화재 : 화재 산 : 산 우리의 단어 분사는 분리 될 때와 다르기 때문에이 두 중국어를 분리하는 것을 피할 정도로 똑똑해야합니다.

또 다른 어려움은 사용 된 철자 변형입니다

단순화 된 중국어 : 서예 전통적인 중국어, 더 복잡하고 풍부한 : 도서 방법

Pinyin, 로마 화 된 만다린 형태 : Shū fǎ

    Elasticsearch
  • 의 중국 분석기 현재, Elasticsearch는 다음 중국 분석기를 제공합니다
  • Lucene 4의 더 이상 사용되지 않은 클래스를 기반으로 한
  • 기본
  • 분석기;
플러그인은 더 이상 유지 관리되지는 않지만 매우 좋은 사전을 기반으로합니다

컨텐츠를 이진화하는 분석기;

공식적으로 지원되는 플러그인; ICU 플러그인 및 워드 세분화 장치.

이 분석기는 크게 다르며 성능을 간단한 테스트 단어 "휴대폰"과 비교할 것입니다. "휴대 전화"는 "휴대 전화"와 "휴대 전화"및 "모바일"을 나타내는 두 개의 한자로 구성된 "휴대 전화"를 의미합니다. "ji"라는 단어는 또한 많은 다른 단어를 구성합니다 :
  • 항공편 : 에어 티켓 로봇 : 로봇 기관총 : 기관총 기회 : 기회
  • 우리의 분사는 "휴대폰"을 검색하면 람보를 기관총을 소유 한 문서를 원하지 않기 때문에 중국어를 분할 할 수 없습니다.
  • 우리는 강력한
  • api : 를 사용하여 이러한 솔루션을 테스트합니다.

  • Default

    분석기 : 는 모든 한자를 단어 요소로 만 나눕니다. 따라서 휴대폰과 휴대폰의 두 가지 어휘 요소가 있습니다. Elasticsearch의 분석기는 정확히 동일한 출력을 생성합니다. 따라서 는 더 이상 사용되지 않으며 곧 로 대체되며 피해야합니다. Chinese standard Chinese 플러그인 : standard 거의 업계 표준이며 우아한 솔루션으로 간주됩니다. 불행히도 Elasticsearch 용 플러그인은 유지되지 않으며 수정 후 버전 1.0.1에서만 실행할 수 있습니다. (설치 단계가 생략되고, 원본 텍스트가 제공됩니다) 설치 후 새로운 워드 세그먼트와 두 개의 수집기 : 및 가 나타납니다. 기본적으로 공개 분석기가 없으므로 새 분석기를 선언해야합니다. (구성 단계가 생략되고 원본 텍스트가 제공됩니다) 두 구성 모두 명확하고 고유 한 어휘 요소로 좋은 결과를 제공합니다. 또한 더 복잡한 문장을 다룰 때 매우 잘 작동합니다.

  • paoding 분석기 : 텍스트 만 바이너리로 변환하는 매우 간단한 분석기. "휴대 전화"만 인덱스 paoding는 좋지만, 우리가 "랜턴 페스티벌 (Lantern Festival)"(랜턴 페스티벌)과 같은 더 긴 단어를 사용하면 랜턴 페스티벌과 Xiao Festival, "랜턴 페스티벌"을 의미합니다. 그리고 각각 "Xiao Festival". paoding max_word_len most_word

  • 플러그인 :
  • 설치가 매우 쉽습니다. (설치 단계는 생략되고, 원본 텍스트가 제공됩니다) Lucene 's 를 사용하여 워드 세그먼터뿐만 아니라 새로운 분석기를 노출시킵니다. Hidden Markov 모델과 많은 양의 교육 텍스트를 사용하여 Words Suite를 사용하여 Words의 가장 좋은 세그먼트를 찾습니다. 따라서 상당히 좋은 교육 사전이 포함되어 있습니다. 우리의 예는 올바르게 참여합니다.

    cjk ICU 플러그인 : 또 다른 공식 플러그인. (설치 단계는 생략되고 원본 텍스트가 제공됩니다) 영어 이외의 언어를 다루는 경우이 플러그인을 사용하는 것이 좋습니다. 그것은 , , 등과 같은 많은 강력한 분석 도구뿐만 아니라 A 워드 세그먼터를 공개합니다. 그것은 중국어 그룹을 추론하기 위해 단어 빈도에 대한 정보를 포함하는 중국어와 일본 사전을 사용합니다. "휴대 전화"에서는 모든 것이 정상이며 예상대로 작동하지만 "랜턴 페스티벌"에서는 랜턴 페스티벌과 페스티벌 - "랜턴 페스티벌"과 "축제"가 "랜턴 페스티벌보다 더 중요하기 때문입니다. ". 흔한. 手机

  • 결과 비교 (생략 된 형식, 원본 텍스트 제공) 내 관점에서 는 최상의 결과를 얻었습니다. 분사라는 단어는 매우 나쁘고 smartcn는 "랜턴 페스티벌"에서 약간 실망하지만 전통적인 중국인을 다루는 데 매우 능숙합니다. smartcn 전통적인 중국 지원 smartcn_tokenizer 문서 또는 사용자 검색 요청에서 전통적인 중국어를 처리해야 할 수도 있습니다. 이러한 전통적인 입력을 현대 중국어로 변환하려면 정규화 단계가 필요합니다.

    또는 와 같은 플러그인은 올바르게 처리하지 않기 때문입니다. smartcn 응용 프로그램을 통해 처리하거나 플러그인을 사용하여 Elasticsearch에서 직접 처리 할 수 ​​있습니다. 전통적인 및 단순화 된 문자를 양방향으로 변환 할 수 있습니다. (설치 단계가 생략되고 원본 텍스트가 제공되었습니다) paoding 마지막 솔루션은

    를 사용하는 것입니다. 제대로 입력 할 수없는 경우에도 여전히 필요한 문서를 캡처 한 다음 관련성을 향상시킬 가능성이 높습니다.

    추가 개선 elasticsearch-analysis-stconvert

    Elasticsearch 분석을위한 완벽한 보편적 솔루션은 없으며 중국어도 예외는 아닙니다. 얻은 정보에 따라 자신의 분석기를 결합하고 구축해야합니다. 예를 들어, 검색 필드 및 다중 경기 쿼리를 사용하여 검색 필드에서 및

    분사를 사용합니다. cjk icu_tokenizer (FAQ 부품 생략, 원본 텍스트 제공)

위 내용은 Elasticsearch를 사용한 효율적인 중국 검색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

PHP에서 보안 비밀번호 해싱을 설명하십시오 (예 : Password_hash, Password_Verify). 왜 MD5 또는 SHA1을 사용하지 않습니까? PHP에서 보안 비밀번호 해싱을 설명하십시오 (예 : Password_hash, Password_Verify). 왜 MD5 또는 SHA1을 사용하지 않습니까? Apr 17, 2025 am 12:06 AM

PHP에서 Password_hash 및 Password_Verify 기능을 사용하여 보안 비밀번호 해싱을 구현해야하며 MD5 또는 SHA1을 사용해서는 안됩니다. 1) Password_hash는 보안을 향상시키기 위해 소금 값이 포함 된 해시를 생성합니다. 2) Password_verify 암호를 확인하고 해시 값을 비교하여 보안을 보장합니다. 3) MD5 및 SHA1은 취약하고 소금 값이 부족하며 현대 암호 보안에는 적합하지 않습니다.

PHP 및 Python : 두 가지 인기있는 프로그래밍 언어를 비교합니다 PHP 및 Python : 두 가지 인기있는 프로그래밍 언어를 비교합니다 Apr 14, 2025 am 12:13 AM

PHP와 Python은 각각 고유 한 장점이 있으며 프로젝트 요구 사항에 따라 선택합니다. 1.PHP는 웹 개발, 특히 웹 사이트의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 간결한 구문을 가진 데이터 과학, 기계 학습 및 인공 지능에 적합하며 초보자에게 적합합니다.

PHP : 웹 개발의 핵심 언어 PHP : 웹 개발의 핵심 언어 Apr 13, 2025 am 12:08 AM

PHP는 서버 측에서 널리 사용되는 스크립팅 언어이며 특히 웹 개발에 적합합니다. 1.PHP는 HTML을 포함하고 HTTP 요청 및 응답을 처리 할 수 ​​있으며 다양한 데이터베이스를 지원할 수 있습니다. 2.PHP는 강력한 커뮤니티 지원 및 오픈 소스 리소스를 통해 동적 웹 컨텐츠, 프로세스 양식 데이터, 액세스 데이터베이스 등을 생성하는 데 사용됩니다. 3. PHP는 해석 된 언어이며, 실행 프로세스에는 어휘 분석, 문법 분석, 편집 및 실행이 포함됩니다. 4. PHP는 사용자 등록 시스템과 같은 고급 응용 프로그램을 위해 MySQL과 결합 할 수 있습니다. 5. PHP를 디버깅 할 때 error_reporting () 및 var_dump ()와 같은 함수를 사용할 수 있습니다. 6. 캐싱 메커니즘을 사용하여 PHP 코드를 최적화하고 데이터베이스 쿼리를 최적화하며 내장 기능을 사용하십시오. 7

PHP 실행 : 실제 예제 및 응용 프로그램 PHP 실행 : 실제 예제 및 응용 프로그램 Apr 14, 2025 am 12:19 AM

PHP는 전자 상거래, 컨텐츠 관리 시스템 및 API 개발에 널리 사용됩니다. 1) 전자 상거래 : 쇼핑 카트 기능 및 지불 처리에 사용됩니다. 2) 컨텐츠 관리 시스템 : 동적 컨텐츠 생성 및 사용자 관리에 사용됩니다. 3) API 개발 : 편안한 API 개발 및 API 보안에 사용됩니다. 성능 최적화 및 모범 사례를 통해 PHP 애플리케이션의 효율성과 유지 보수 성이 향상됩니다.

스칼라 유형, 반환 유형, 노조 유형 및 무효 유형을 포함한 PHP 유형의 힌트 작업은 어떻게 작동합니까? 스칼라 유형, 반환 유형, 노조 유형 및 무효 유형을 포함한 PHP 유형의 힌트 작업은 어떻게 작동합니까? Apr 17, 2025 am 12:25 AM

PHP 유형은 코드 품질과 가독성을 향상시키기위한 프롬프트입니다. 1) 스칼라 유형 팁 : PHP7.0이므로 int, float 등과 같은 기능 매개 변수에 기본 데이터 유형을 지정할 수 있습니다. 2) 반환 유형 프롬프트 : 기능 반환 값 유형의 일관성을 확인하십시오. 3) Union 유형 프롬프트 : PHP8.0이므로 기능 매개 변수 또는 반환 값에 여러 유형을 지정할 수 있습니다. 4) Nullable 유형 프롬프트 : NULL 값을 포함하고 널 값을 반환 할 수있는 기능을 포함 할 수 있습니다.

PHP의 지속적인 관련성 : 여전히 살아 있습니까? PHP의 지속적인 관련성 : 여전히 살아 있습니까? Apr 14, 2025 am 12:12 AM

PHP는 여전히 역동적이며 현대 프로그래밍 분야에서 여전히 중요한 위치를 차지하고 있습니다. 1) PHP의 단순성과 강력한 커뮤니티 지원으로 인해 웹 개발에 널리 사용됩니다. 2) 유연성과 안정성은 웹 양식, 데이터베이스 작업 및 파일 처리를 처리하는 데 탁월합니다. 3) PHP는 지속적으로 발전하고 최적화하며 초보자 및 숙련 된 개발자에게 적합합니다.

PHP 대 기타 언어 : 비교 PHP 대 기타 언어 : 비교 Apr 13, 2025 am 12:19 AM

PHP는 특히 빠른 개발 및 동적 컨텐츠를 처리하는 데 웹 개발에 적합하지만 데이터 과학 및 엔터프라이즈 수준의 애플리케이션에는 적합하지 않습니다. Python과 비교할 때 PHP는 웹 개발에 더 많은 장점이 있지만 데이터 과학 분야에서는 Python만큼 좋지 않습니다. Java와 비교할 때 PHP는 엔터프라이즈 레벨 애플리케이션에서 더 나빠지지만 웹 개발에서는 더 유연합니다. JavaScript와 비교할 때 PHP는 백엔드 개발에서 더 간결하지만 프론트 엔드 개발에서는 JavaScript만큼 좋지 않습니다.

PHP와 Python : 다른 패러다임이 설명되었습니다 PHP와 Python : 다른 패러다임이 설명되었습니다 Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

See all articles