Dengan perkembangan Internet, perusahaan berhadapan dengan jumlah data teks yang semakin besar. Cara mendapatkan semula kandungan yang berkaitan dengan cepat dan tepat telah menjadi salah satu isu penting bagi perusahaan dalam bidang maklumat. Sebagai enjin carian sumber terbuka berdasarkan Lucene, Elasticsearch mempunyai ciri-ciri ketersediaan tinggi, berskala tinggi dan perolehan pantas, menjadikannya salah satu penyelesaian pilihan untuk mendapatkan semula teks penuh perusahaan. Sebagai bahasa pengaturcaraan sebelah pelayan yang popular, PHP juga boleh menjalankan pembangunan web dan pembangunan API dengan cepat, dan telah menjadi salah satu bahasa yang biasa digunakan disepadukan dengan Elasticsearch.
Artikel ini menerangkan terutamanya langkah-langkah terperinci untuk menyepadukan PHP dan Elasticsearch untuk merealisasikan fungsi carian teks penuh.
1. Pengenalan kepada Elasticsearch
Elasticsearch ialah enjin carian sumber terbuka berdasarkan Lucene yang boleh digunakan untuk mendapatkan data teks dengan cepat dan tepat. Elasticsearch mengguna pakai seni bina storan teragih, menyokong pengembangan mendatar, dan boleh menyesuaikan diri dengan keperluan storan data yang besar dan mendapatkan semula pantas.
Elasticsearch menyediakan antara muka API RESTful, menyokong interaksi data dalam format JSON, dan boleh disepadukan dengan bahasa pengaturcaraan yang biasa digunakan. Dalam Elasticsearch, data disimpan mengikut dokumen Setiap dokumen mengandungi berbilang medan, dan setiap medan boleh bersarang untuk mengandungi medan lain, menjadikan struktur data lebih fleksibel. Pada masa yang sama, Elasticsearch menyokong pengambilan teks penuh, pemadanan tepat, pengagregatan, analisis dan operasi lain pada dokumen.
2. Penyepaduan PHP dan Elasticsearch
Elasticsearch-PHP ialah perpustakaan pelanggan PHP rasmi, yang merangkumi antara muka API RESTful bagi Elasticsearch dan boleh mengendalikan aplikasi PHP dengan mudah. Kami boleh memasang perpustakaan melalui Komposer dan melaksanakan arahan berikut:
composer require elasticsearch/elasticsearch
Sebelum menyambung ke Elasticsearch, anda perlu memulakan perkhidmatan Elasticsearch. Untuk menggunakan perpustakaan Elasticsearch-PHP untuk menyambung ke Elasticsearch dalam PHP, anda perlu membuat instantiate objek ElasticsearchClient terlebih dahulu, dan menetapkan IP dan port pelayan Elasticsearch yang disambungkan:
require 'vendor/autoload.php'; $client = ElasticsearchClientBuilder::create()->setHosts(['http://127.0.0.1:9200'])->build();
Antaranya, kaedah setHosts() lulus dalam parameter tatasusunan, setiap elemen mewakili pelayan Elasticsearch, berbilang pelayan boleh disediakan untuk mencapai ketersediaan tinggi dan pengimbangan beban.
Dalam Elasticsearch, indeks ialah struktur data yang digunakan untuk menyimpan dan mendapatkan semula data yang serupa, serupa dengan jadual dalam pangkalan data. Anda boleh mencipta indeks bernama "my_index" melalui kod berikut:
$params = [ 'index' => 'my_index', 'body' => [ 'settings' => [ 'number_of_shards' => 5, // 分片数 'number_of_replicas' => 1, // 副本数 ], ], ]; $response = $client->indices()->create($params);
Antaranya, dalam parameter tatasusunan $params, 'setting' mewakili tetapan indeks, termasuk maklumat seperti bilangan serpihan dan bilangan replika . 'body' mewakili pemetaan indeks Anda boleh menetapkan medan dan jenis indeks dalam parameter ini.
Menambah dokumen dalam Elasticsearch boleh dicapai melalui kod berikut:
$params = [ 'index' => 'my_index', 'id' => '1', 'body' => [ 'title' => 'Elasticsearch PHP集成', 'content' => 'Elasticsearch是一款基于Lucene的开源搜索引擎...' ] ]; $response = $client->index($params);
Antaranya, dalam parameter tatasusunan $params, 'index' mewakili nama indeks dokumen yang akan ditambah '; id' mewakili pengecam unik dokumen , parameter pilihan 'body' mewakili kandungan dokumen, dan berbilang medan dan nilai boleh ditetapkan.
Mencari dokumen dalam Elasticsearch boleh dicapai melalui kod berikut:
$params = [ 'index' => 'my_index', 'body' => [ 'query' => [ 'match' => [ 'title' => 'Elasticsearch PHP' ] ] ] ]; $response = $client->search($params);
Antaranya, dalam parameter tatasusunan $params, 'index' mewakili nama indeks dokumen yang hendak dicari '; body' mewakili keadaan pertanyaan, yang boleh Tetapkan berbilang syarat pertanyaan dan peraturan pengisihan.
3. PHP+Elasticsearch untuk melaksanakan pengambilan teks penuh
Sebelum menggunakan Elasticsearch untuk melaksanakan pengambilan teks penuh, data yang ingin diambil perlu diindeks terlebih dahulu. Apabila membina indeks, anda boleh menetapkan medan untuk diambil semula kepada jenis teks, supaya pengindeksan teks penuh boleh dilakukan.
Dalam contoh ini, anggap bahawa data yang akan diambil ialah jadual pelajar, yang mengandungi id medan, nama, umur dan skor. Kita boleh mencipta indeks bernama "pelajar" melalui kod berikut:
$params = [ 'index' => 'student', 'body' => [ 'settings' => [ 'number_of_shards' => 5, 'number_of_replicas' => 1, ], 'mappings' => [ 'properties' => [ 'id' => ['type' => 'integer'], 'name' => ['type' => 'text', 'analyzer' => 'ik_max_word'], 'age' => ['type' => 'integer'], 'score' => ['type' => 'double'] ] ] ] ]; $response = $client->indices()->create($params);
Antaranya, jenis medan 'nama' ditetapkan kepada teks, dan pembahagian perkataan ditentukan Pemalam segmentasi perkataan Cina ik_max_word digunakan di sini untuk menukar teks Cina mengikut maksimum Diproses oleh pembahagian perkataan.
Selepas indeks dibuat, anda boleh menambah dokumen pada indeks. Katakan anda ingin menambah maklumat pelajar, anda boleh melakukannya melalui kod berikut:
$params = [ 'index' => 'student', 'body' => [ 'id' => 1, 'name' => '张三', 'age' => 18, 'score' => 90.5 ] ]; $response = $client->index($params);
Anda boleh menambah berbilang dokumen pada indeks dengan menambahkannya dalam satu gelung.
Selepas mengindeks dan menambah dokumen, carian teks penuh boleh dilakukan. Dalam contoh ini, pertanyaan padanan digunakan untuk mencapai carian teks penuh, yang boleh dicari dengan memasukkan kata kunci. Ini boleh dicapai melalui kod berikut:
$params = [ 'index' => 'student', 'body' => [ 'query' => [ 'match' => [ 'name' => '张三' ] ] ] ]; $response = $client->search($params);
Antaranya, medan 'nama' digunakan untuk pemadanan dan boleh digantikan dengan medan lain yang memerlukan perolehan teks penuh. Maklumat yang dikembalikan oleh hasil carian adalah dalam $response, dan hasil pertanyaan boleh diperoleh dan dipaparkan.
4. Ringkasan
Artikel ini memperkenalkan langkah terperinci untuk menyepadukan PHP dan Elasticsearch untuk merealisasikan fungsi carian teks penuh. Melalui langkah menyambung ke Elasticsearch, membina indeks, menambah dokumen dan mencari dokumen, anda boleh mendapatkan semula sejumlah besar data teks dengan cepat dan tepat. Apabila melakukan carian teks penuh, adalah disyorkan untuk menggunakan pembahagian perkataan untuk membahagikan bahasa Cina untuk meningkatkan ketepatan dan kecekapan carian.
Atas ialah kandungan terperinci Penjelasan terperinci tentang penyepaduan PHP dan Elasticsearch untuk merealisasikan fungsi carian teks penuh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!