목차
Elasticsearch의 이메일 및 전화번호 퍼지 매칭
데이터 베이스 MySQL 튜토리얼 Elasticsearch에서 이메일과 전화번호의 퍼지 매칭을 최적화하는 방법은 무엇입니까?

Elasticsearch에서 이메일과 전화번호의 퍼지 매칭을 최적화하는 방법은 무엇입니까?

Oct 30, 2024 pm 03:51 PM

How to Optimize Fuzzy Matching of Emails and Phone Numbers in Elasticsearch?

Elasticsearch의 이메일 및 전화번호 퍼지 매칭

Elasticsearch는 이메일과 전화번호를 포함한 데이터의 퍼지 매칭을 위한 유연한 방법을 제공합니다. 이 문서에서는 사용자 정의 분석기와 토큰 필터를 사용하여 이러한 쿼리의 성능을 최적화하는 방법을 살펴봅니다.

퍼지 매칭을 위한 사용자 정의 분석기

이메일과 전화번호를 효율적으로 퍼지 매칭하려면 다음이 필요합니다. Elasticsearch에서 사용자 정의 분석기를 생성하는 것이 좋습니다. 이러한 분석기는 분석을 위해 입력 데이터를 준비하는 토크나이저와 특정 변환을 실행하는 필터 세트로 구성됩니다.

이메일 분석기

index_email_analyzer 분석기는 표준 토크나이저를 활용하여 다음을 수행합니다. 입력을 분해합니다. 그런 다음 소문자, name_ngram_filter 및 Trim과 같은 필터를 적용하여 이메일을 소문자로 변환하고, 다양한 길이(3~20자)의 ngram을 생성하고, 공백을 제거합니다.

search_email_analyzer는 유사하게 표준 토크나이저를 사용하지만 소문자 및 트림 필터만 사용합니다. 이는 ngram 필터가 필요하지 않은 검색용 입력을 준비합니다.

전화 분석기

전화번호의 경우 index_phone_analyzer는 digit_edge_ngram_tokenizer를 활용하여 다양한 길이의 ngram을 생성합니다. (1~15자) 숫자로 시작합니다. 이를 통해 전화번호의 모든 접두어를 일치시킬 수 있습니다. digit_only char 필터는 숫자 값만 분석되도록 숫자가 아닌 문자를 제거합니다.

search_phone_analyzer는 입력에서 단일 토큰을 생성하는 키워드 토크나이저를 사용하여 전화번호의 정확한 일치를 가능하게 합니다.

분석기 구현

다음은 이러한 사용자 정의 분석기를 통합하는 샘플 매핑입니다.

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}
로그인 후 복사

퍼지 쿼리 수행

"@gmail.com"으로 끝나는 이메일 또는 "136"으로 시작하는 전화번호를 일치시키려면 다음과 같은 쿼리를 실행할 수 있습니다.

POST myindex
{
  "query": {
    "term": {
      "email": "@gmail.com"
    }
  }
}

POST myindex
{
  "query": {
    "term": {
      "phone": "136"
    }
  }
}
로그인 후 복사

이러한 쿼리는 맞춤형 분석기를 활용하여 퍼지에 필요한 ngram을 생성합니다. 매칭됩니다.

위 내용은 Elasticsearch에서 이메일과 전화번호의 퍼지 매칭을 최적화하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Docker에서 MySQL 메모리 사용을 줄입니다 Docker에서 MySQL 메모리 사용을 줄입니다 Mar 04, 2025 pm 03:52 PM

Docker에서 MySQL 메모리 사용을 줄입니다

Alter Table 문을 사용하여 MySQL에서 테이블을 어떻게 변경합니까? Alter Table 문을 사용하여 MySQL에서 테이블을 어떻게 변경합니까? Mar 19, 2025 pm 03:51 PM

Alter Table 문을 사용하여 MySQL에서 테이블을 어떻게 변경합니까?

MySQL의 문제를 해결하는 방법 공유 라이브러리를 열 수 없습니다. MySQL의 문제를 해결하는 방법 공유 라이브러리를 열 수 없습니다. Mar 04, 2025 pm 04:01 PM

MySQL의 문제를 해결하는 방법 공유 라이브러리를 열 수 없습니다.

Linux에서 MySQL을 실행합니다 (Phpmyadmin이있는 Podman 컨테이너가 포함되지 않음) Linux에서 MySQL을 실행합니다 (Phpmyadmin이있는 Podman 컨테이너가 포함되지 않음) Mar 04, 2025 pm 03:54 PM

Linux에서 MySQL을 실행합니다 (Phpmyadmin이있는 Podman 컨테이너가 포함되지 않음)

sqlite 란 무엇입니까? 포괄적 인 개요 sqlite 란 무엇입니까? 포괄적 인 개요 Mar 04, 2025 pm 03:55 PM

sqlite 란 무엇입니까? 포괄적 인 개요

MacOS에서 여러 MySQL 버전을 실행 : 단계별 가이드 MacOS에서 여러 MySQL 버전을 실행 : 단계별 가이드 Mar 04, 2025 pm 03:49 PM

MacOS에서 여러 MySQL 버전을 실행 : 단계별 가이드

MySQL 연결에 대한 SSL/TLS 암호화를 어떻게 구성합니까? MySQL 연결에 대한 SSL/TLS 암호화를 어떻게 구성합니까? Mar 18, 2025 pm 12:01 PM

MySQL 연결에 대한 SSL/TLS 암호화를 어떻게 구성합니까?

인기있는 MySQL GUI 도구는 무엇입니까 (예 : MySQL Workbench, Phpmyadmin)? 인기있는 MySQL GUI 도구는 무엇입니까 (예 : MySQL Workbench, Phpmyadmin)? Mar 21, 2025 pm 06:28 PM

인기있는 MySQL GUI 도구는 무엇입니까 (예 : MySQL Workbench, Phpmyadmin)?

See all articles