Elasticsearch에서 이메일과 전화번호의 퍼지 매칭을 최적화하는 방법은 무엇입니까?

Patricia Arquette
풀어 주다: 2024-10-30 15:51:02
원래의
421명이 탐색했습니다.

How to Optimize Fuzzy Matching of Emails and Phone Numbers in Elasticsearch?

Elasticsearch의 이메일 및 전화번호 퍼지 매칭

Elasticsearch는 이메일과 전화번호를 포함한 데이터의 퍼지 매칭을 위한 유연한 방법을 제공합니다. 이 문서에서는 사용자 정의 분석기와 토큰 필터를 사용하여 이러한 쿼리의 성능을 최적화하는 방법을 살펴봅니다.

퍼지 매칭을 위한 사용자 정의 분석기

이메일과 전화번호를 효율적으로 퍼지 매칭하려면 다음이 필요합니다. Elasticsearch에서 사용자 정의 분석기를 생성하는 것이 좋습니다. 이러한 분석기는 분석을 위해 입력 데이터를 준비하는 토크나이저와 특정 변환을 실행하는 필터 세트로 구성됩니다.

이메일 분석기

index_email_analyzer 분석기는 표준 토크나이저를 활용하여 다음을 수행합니다. 입력을 분해합니다. 그런 다음 소문자, name_ngram_filter 및 Trim과 같은 필터를 적용하여 이메일을 소문자로 변환하고, 다양한 길이(3~20자)의 ngram을 생성하고, 공백을 제거합니다.

search_email_analyzer는 유사하게 표준 토크나이저를 사용하지만 소문자 및 트림 필터만 사용합니다. 이는 ngram 필터가 필요하지 않은 검색용 입력을 준비합니다.

전화 분석기

전화번호의 경우 index_phone_analyzer는 digit_edge_ngram_tokenizer를 활용하여 다양한 길이의 ngram을 생성합니다. (1~15자) 숫자로 시작합니다. 이를 통해 전화번호의 모든 접두어를 일치시킬 수 있습니다. digit_only char 필터는 숫자 값만 분석되도록 숫자가 아닌 문자를 제거합니다.

search_phone_analyzer는 입력에서 단일 토큰을 생성하는 키워드 토크나이저를 사용하여 전화번호의 정확한 일치를 가능하게 합니다.

분석기 구현

다음은 이러한 사용자 정의 분석기를 통합하는 샘플 매핑입니다.

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}
로그인 후 복사

퍼지 쿼리 수행

"@gmail.com"으로 끝나는 이메일 또는 "136"으로 시작하는 전화번호를 일치시키려면 다음과 같은 쿼리를 실행할 수 있습니다.

POST myindex
{
  "query": {
    "term": {
      "email": "@gmail.com"
    }
  }
}

POST myindex
{
  "query": {
    "term": {
      "phone": "136"
    }
  }
}
로그인 후 복사

이러한 쿼리는 맞춤형 분석기를 활용하여 퍼지에 필요한 ngram을 생성합니다. 매칭됩니다.

위 내용은 Elasticsearch에서 이메일과 전화번호의 퍼지 매칭을 최적화하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!