Bagaimanakah Elasticsearch boleh digunakan untuk mencapai padanan kabur untuk e-mel dan nombor telefon?

Susan Sarandon
Lepaskan: 2024-10-28 06:08:30
asal
192 orang telah melayarinya

 How can Elasticsearch be used to achieve fuzzy matching for email and telephone numbers?

Fuzzy Matching E-mel dan Telefon dalam Elasticsearch

Alamat e-mel yang sepadan yang berakhir dengan domain atau nombor telefon tertentu bermula dengan awalan tertentu boleh dicapai menggunakan penganalisis tersuai Elasticsearch.

Penyelesaian yang berkesan melibatkan penganalisis menyesuaikan untuk medan e-mel dan telefon. Untuk e-mel, penganalisis indeks yang membuat token menggunakan n-gram digunakan, membolehkan pemadanan pada pelbagai bahagian e-mel. Untuk telefon, penganalisis edge-ngram mengindeks awalan dengan panjang yang berbeza-beza, memudahkan pemadanan awalan yang cekap.

Butiran pelaksanaan:

Takrifan Penganalisis untuk E-mel:

  • index_email_analyzer: Tokenizes nilai e-mel, menjana n-gram (susulan) dengan panjang yang berbeza-beza (1-20 aksara), memastikan pelbagai kemungkinan padanan (cth., token "@gmail.com" termasuk "@g", "@@", "@gm", "@gma", dll.).
  • search_email_analyzer: Digunakan semasa carian, ia hanya menandakan rentetan input, membenarkan perbandingan langsung terhadap token yang diindeks (cth., carian untuk "@gmail.com" akan sepadan dengan e-mel yang diindeks menggunakan index_email_analyzer).

Takrifan Penganalisis untuk Telefon:

  • index_phone_analyzer: Tokenizes nombor telefon, mengekstrak semua awalan yang mungkin, memastikan padanan untuk input separa (cth., mencari "136" akan sepadan dengan "1362435647").
  • search_phone_analyzer: Memproses input carian, menukarnya menjadi bentuk token yang boleh dipadankan dengan telefon yang diindeks nombor (mis., carian untuk "136" akan dijadikan token dan dibandingkan dengan token yang diindeks seperti "136", "13", "1").

Contoh Indeks dan Pertanyaan:

PUT myindex
{
  "settings": {
    "analysis": {
      "analyzer": {
        ...
        "index_email_analyzer": { ... },
        "search_email_analyzer": { ... },
        "index_phone_analyzer": { ... },
        "search_phone_analyzer": { ... }
        ...
      }
    }
  },
  "mappings": {
    "your_type": {
      "properties": {
        "email": {
          "type": "string",
          "analyzer": "index_email_analyzer",
          "search_analyzer": "search_email_analyzer"
        },
        "phone": {
          "type": "string",
          "analyzer": "index_phone_analyzer",
          "search_analyzer": "search_phone_analyzer"
        }
      }
    }
  }
}

POST myindex
{ 
    "query": {
        "term": 
            { "email": "@gmail.com" }
    }
}
Salin selepas log masuk

Pendekatan ini menyediakan padanan kabur yang cekap dan boleh disesuaikan untuk medan e-mel dan telefon dalam Elasticsearch, membolehkan keupayaan carian fleksibel.

Atas ialah kandungan terperinci Bagaimanakah Elasticsearch boleh digunakan untuk mencapai padanan kabur untuk e-mel dan nombor telefon?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!