Sphinx在windows下安装使用[支持中文全文检索]_PHP教程
前一阵子尝试使用了一下Sphinx,一个能够被各种语言(PHP/Python/Ruby/etc)方便调用的全文检索系统。网上的资料大多是在 linux环境下的安装使用,当然,作为生产环境很有必要部署在*nix环境下,作为学习测试,还是windows环境比较方便些。
本文旨在提供一种便捷的方式让Sphinx在windows下安装配置以支持中文全文检索,配置部分在linux下通用。
一、关于Sphinx
Sphinx 是一个在GPLv2 下发布的一个全文检索引擎,商业授权(例如, 嵌入到其他程序中)需要联系作者(Sphinxsearch.com)以获得商业授权。
一般而言,Sphinx是一个独立的搜索引擎,意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。
当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS的原生支持)。
搜索API支持PHP、Python、Perl、Rudy和Java,并且也可以用作MySQL存储引擎。搜索API非常简单,可以在若干个小时之内移植到新的语言上。
Sphinx特性:
- 高速的建立索引(在当代CPU上,峰值性能可达到10MB/秒);
- 高性能的搜索(在2–4GB的文本数据上,平均每次检索响应时间小于0.1秒);
- 可处理海量数据(目前已知可以处理超过100GB的文本数据,在单一CPU的系统上可处理100M文档);
- 提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
- 支持分布式搜索;
- 提供文件的摘录生成;
- 可作为MySQL的存储引擎提供搜索服务;
- 支持布尔、短语、词语相似度等多种检索模式;
- 文档支持多个全文检索字段(最大不超过32个);
- 文档支持多个额外的属性信息(例如:分组信息,时间戳等);
- 停止词查询;
- 支持单一字节编码和UTF-8编码;
- 原生的MySQL支持(同时支持MyISAM和InnoDB);
- 原生的PostgreSQL支持.
中文手册可以在这里获得,感谢译者的辛勤工作。
二、Sphinx在windows上的安装
1.直接在http://www.sphinxsearch.com/downloads.html找到最新的windows版本,我这里下的是Win32 release binaries with MySQL support,下载后解压在D:\sphinx目录下;
2.在D:\sphinx\下新建一个data目录用来存放索引文件,一个log目录方日志文件,复制D:\sphinx\sphinx.conf.in到D:\sphinx\bin\sphinx.conf(注意修改文件名);
3.修改D:\sphinx\bin\sphinx.conf,我这里列出需要修改的几个:
type = mysql # 数据源,我这里是mysql<br>sql_host = localhost # 数据库服务器<br>sql_user = root # 数据库用户名<br>sql_pass = '' # 数据库密码<br>sql_db = test # 数据库<br>sql_port = 3306 # 数据库端口Salin selepas log masuksql_query_pre = SET NAMES utf8 # 去掉此行前面的注释,如果你的数据库是uft8编码的Salin selepas log masukindex test1<br>{<br># 放索引的目录<br> path = D:/sphinx/data/<br># 编码<br> charset_type = utf-8<br> # 指定utf-8的编码表<br> charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F<br> # 简单分词,只支持0和1,如果要搜索中文,请指定为1<br> ngram_len = 1<br># 需要分词的字符,如果要搜索中文,去掉前面的注释<br> ngram_chars = U+3000..U+2FA1F<br>}Salin selepas log masuk# index test1stemmed : test1<br># {<br> # path = @CONFDIR@/data/test1stemmed<br> # morphology = stem_en<br># }<br><br># 如果没有分布式索引,注释掉下面的内容<br><br># index dist1<br># {<br> # 'distributed' index type MUST be specified<br> # type = distributedSalin selepas log masuk# local index to be searched<br> # there can be many local indexes configured<br> # local = test1<br> # local = test1stemmedSalin selepas log masuk# remote agent<br> # multiple remote agents may be specified<br> # syntax is 'hostname:port:index1,[index2[,...]]<br> # agent = localhost:3313:remote1<br> # agent = localhost:3314:remote2,remote3Salin selepas log masuk# remote agent connection timeout, milliseconds<br> # optional, default is 1000 ms, ie. 1 sec<br> # agent_connect_timeout = 1000Salin selepas log masuk# remote agent query timeout, milliseconds<br> # optional, default is 3000 ms, ie. 3 sec<br> # agent_query_timeout = 3000<br># }Salin selepas log masuk# 搜索服务需要修改的部分<br>searchd<br>{<br> # 日志<br> log = D:/sphinx/log/searchd.logSalin selepas log masuk# PID file, searchd process ID file name<br> pid_file = D:/sphinx/log/searchd.pidSalin selepas log masuk# windows下启动searchd服务一定要注释掉这个<br> # seamless_rotate = 1<br>}Salin selepas log masuk
4.导入测试数据
C:\Program Files\MySQL\MySQL Server 5.0\bin>mysql -uroot test 5.建立索引 D:\sphinx\bin>indexer.exe –all using config file ‘./sphinx.conf’… D:\sphinx\bin> 6.搜索’test’试试 D:\sphinx\bin>search.exe test using config file ‘./sphinx.conf’… displaying matches: words: 都所出来了吧。 6.测试中文搜索 修改test数据库中documents数据表, UPDATE `test`.`documents` SET `title` = ‘测试中文’, `content` = ‘this is my test document number two,应该搜的到吧’ WHERE `documents`.`id` = 2; 重建索引: D:\sphinx\bin>indexer.exe –all 搜索’中文’试试: D:\sphinx\bin>search.exe 中文 using config file ‘./sphinx.conf’… words: 貌似没有搜到,这是因为windows命令行中的编码是gbk,当然搜不出来。我们可以用程序试试,在D:\sphinx\api下新建一个foo.php的文件,注意utf-8编码
require ’sphinxapi.php’; 启动Sphinx searchd服务 D:\sphinx\bin>searchd.exe WARNING: forcing –console mode on Windows 执行PHP查询: php d:/sphinx/api/foo.php 结果是不是出来?剩下的工作就是去看手册,慢慢摸索高阶的配置。
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff
indexing index ‘test1′…
collected 4 docs, 0.0 MB
sorted 0.0 Mhits, 100.0% done
total 4 docs, 193 bytes
total 0.101 sec, 1916.30 bytes/sec, 39.72 docs/sec
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff
index ‘test1′: query ‘test ‘: returned 3 matches of 3 total in 0.000 sec
1. document=1, weight=2, group_id=1, date_added=Wed Nov 26 14:58:59 2008
id=1
group_id=1
group_id2=5
date_added=2008-11-26 14:58:59
title=test one
content=this is my test document number one. also checking search within
phrases.
2. document=2, weight=2, group_id=1, date_added=Wed Nov 26 14:58:59 2008
id=2
group_id=1
group_id2=6
date_added=2008-11-26 14:58:59
title=test two
content=this is my test document number two
3. document=4, weight=1, group_id=2, date_added=Wed Nov 26 14:58:59 2008
id=4
group_id=2
group_id2=8
date_added=2008-11-26 14:58:59
title=doc number four
content=this is to test groups
1. ‘test’: 3 documents, 5 hits
D:\sphinx\bin>
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff
index ‘test1′: query ‘中文 ‘: returned 0 matches of 0 total in 0.000 sec
D:\sphinx\bin>
$s = new SphinxClient();
$s->SetServer(’localhost’,3312);
$result = $s->Query(’中文’);
var_dump($result);
?>
Sphinx 0.9.8-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff
using config file ‘./sphinx.conf’…
creating server socket on 0.0.0.0:3312
accepting connections
您可能感兴趣的文章

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Selesaikan masalah antara muka pihak ketiga yang kembali 403 dalam persekitaran Node.js. Apabila kita menggunakan Node.js untuk memanggil antara muka pihak ketiga, kita kadang-kadang menghadapi kesilapan 403 dari antara muka yang kembali 403 ...

Platform perdagangan OKX boleh dimuat turun melalui peranti mudah alih (Android dan iOS) dan komputer (Windows dan MacOS). 1. Pengguna Android boleh memuat turunnya dari laman web rasmi atau Google Play, dan mereka perlu memberi perhatian kepada tetapan keselamatan. 2. Pengguna iOS boleh memuat turunnya melalui App Store atau ikuti pengumuman rasmi untuk mendapatkan kaedah lain. 3. Pengguna komputer boleh memuat turun pelanggan sistem yang sepadan dari laman web rasmi. Sentiasa pastikan untuk menggunakan saluran rasmi semasa memuat turun, dan mendaftar, log masuk dan tetapan keselamatan selepas pemasangan.

Masalah membandingkan dan menyegerakkan fail di luar: kegagalan sensitiviti kes apabila menggunakan di luar ...

Bagaimana untuk mengelakkan antara muka pihak ketiga yang mengembalikan ralat 403 dalam persekitaran nod. Apabila memanggil antara muka laman web pihak ketiga menggunakan Node.js, anda kadang-kadang menghadapi masalah mengembalikan 403 ralat. � ...

Mengapa kod saya tidak dapat mendapatkan data yang dikembalikan oleh API? Dalam pengaturcaraan, kita sering menghadapi masalah mengembalikan nilai null apabila panggilan API, yang bukan sahaja mengelirukan ...

Multithreading dalam bahasa dapat meningkatkan kecekapan program. Terdapat empat cara utama untuk melaksanakan multithreading dalam bahasa C: Buat proses bebas: Buat pelbagai proses berjalan secara bebas, setiap proses mempunyai ruang ingatan sendiri. Pseudo-Multithreading: Buat pelbagai aliran pelaksanaan dalam proses yang berkongsi ruang memori yang sama dan laksanakan secara bergantian. Perpustakaan multi-threaded: Gunakan perpustakaan berbilang threaded seperti PTHREADS untuk membuat dan mengurus benang, menyediakan fungsi operasi benang yang kaya. Coroutine: Pelaksanaan pelbagai threaded ringan yang membahagikan tugas menjadi subtask kecil dan melaksanakannya pada gilirannya.

Menguasai pemantauan log sistem Debian adalah kunci kepada operasi dan penyelenggaraan yang cekap. Ia dapat membantu anda memahami keadaan operasi sistem tepat pada masanya, dengan cepat mencari kesalahan, dan mengoptimumkan prestasi sistem. Artikel ini akan memperkenalkan beberapa kaedah dan alat pemantauan yang biasa digunakan. Sumber Sistem Pemantauan Dengan Toolkit Sysstat Toolkit Sysstat menyediakan satu siri alat baris arahan yang kuat untuk mengumpul, menganalisis dan melaporkan pelbagai metrik sumber sistem, termasuk beban CPU, penggunaan memori, cakera I/O, rangkaian, dan lain -lain. MPSTAT: Statistik CPU multi-teras. Pidsta

Kaedah muat turun Perpustakaan Python (.whl) Meneroka kesukaran banyak pemaju Python apabila memasang perpustakaan tertentu pada sistem Windows. Penyelesaian yang sama ...
