Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?

Patricia Arquette
Lepaskan: 2024-10-30 15:51:02
asal
421 orang telah melayarinya

How to Optimize Fuzzy Matching of Emails and Phone Numbers in Elasticsearch?

E-mel Pemadanan Kabur dan Nombor Telefon dalam Elasticsearch

Elasticsearch menawarkan kaedah fleksibel untuk pemadanan kabur data, termasuk e-mel dan nombor telefon. Artikel ini meneroka cara mengoptimumkan prestasi untuk pertanyaan sedemikian menggunakan penganalisis tersuai dan penapis token.

Penganalisis Tersuai untuk Padanan Kabur

Untuk memadankan e-mel dan nombor telefon secara cekap, ia adalah disyorkan untuk mencipta penganalisis tersuai dalam Elasticsearch. Penganalisis ini terdiri daripada tokenizer yang menyediakan data input untuk analisis dan satu set penapis yang melaksanakan transformasi tertentu.

Penganalisis E-mel

Penganalisis index_email_analyzer memanfaatkan tokenizer standard untuk pecahkan input. Ia kemudian menggunakan penapis seperti huruf kecil, name_ngram_filter dan memangkas untuk menukar e-mel kepada huruf kecil, menjana ngram dengan panjang yang berbeza-beza (daripada 3 hingga 20 aksara) dan mengalih keluar ruang.

search_email_analyzer juga menggunakan tokenizer standard tetapi hanya menggunakan penapis huruf kecil dan trim. Ini menyediakan input untuk carian, di mana penapis ngram tidak diperlukan.

Penganalisis Telefon

Untuk nombor telefon, index_phone_analyzer menggunakan digit_edge_ngram_tokenizer untuk menghasilkan ngram dengan panjang yang berbeza-beza (1 hingga 15 aksara) yang bermula dengan digit. Ini membolehkan untuk memadankan mana-mana awalan nombor telefon. Penapis aksara digit_only mengalih keluar aksara bukan digit untuk memastikan hanya nilai berangka dianalisis.

search_phone_analyzer menggunakan tokenizer kata kunci, yang menjana satu token daripada input, membolehkan padanan tepat nombor telefon.

Melaksanakan Penganalisis

Berikut ialah contoh pemetaan yang menggabungkan penganalisis tersuai ini:

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        "email_url_analyzer": {
          "type": "custom",
          "tokenizer": "uax_url_email",
          "filter": [ "trim" ]
        },
        "index_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "digit_edge_ngram_tokenizer",
          "filter": [ "trim" ]
        },
        "search_phone_analyzer": {
          "type": "custom",
          "char_filter": [ "digit_only" ],
          "tokenizer": "keyword",
          "filter": [ "trim" ]
        },
        "index_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "name_ngram_filter", "trim" ]
        },
        "search_email_analyzer": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": [ "lowercase", "trim" ]
        }
      },
      "char_filter": {
        "digit_only": {
          "type": "pattern_replace",
          "pattern": "\D+",
          "replacement": ""
        }
      },
      "tokenizer": {
        "digit_edge_ngram_tokenizer": {
          "type": "edgeNGram",
          "min_gram": "1",
          "max_gram": "15",
          "token_chars": [ "digit" ]
        }
      },
      "filter": {
        "name_ngram_filter": {
          "type": "ngram",
          "min_gram": "1",
          "max_gram": "20"
        }
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}
Salin selepas log masuk

Melaksanakan Pertanyaan Kabur

Untuk memadankan e-mel yang berakhir dengan "@gmail.com" atau nombor telefon bermula dengan "136", anda boleh mengeluarkan pertanyaan seperti:
POST myindex
{
  "query": {
    "term": {
      "email": "@gmail.com"
    }
  }
}

POST myindex
{
  "query": {
    "term": {
      "phone": "136"
    }
  }
}
Salin selepas log masuk

Pertanyaan ini akan memanfaatkan penganalisis tersuai untuk menjana ngram yang diperlukan untuk fuzzy padan.

Atas ialah kandungan terperinci Bagaimana untuk Mengoptimumkan Padanan Fuzzy E-mel dan Nombor Telefon dalam Elasticsearch?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!