목차
您可能感兴趣的文章
php教程 php手册 sphinx中文全文检索的实现

sphinx中文全文检索的实现

Jun 13, 2016 am 09:36 AM
sphinx 중국인 전체 텍스트 검색 성취하다

首先以下是配置文件:

source cv{
type=mysql
sql_host=localhost
sql_user=root
sql_pass=passwod
sql_db=database
sql_query_pre= SET NAMES utf8
sql_query=\
SELECT id, title, introtext,unix_timestamp(created) as addtime \
FROM jos_content
sql_attr_timestamp=addtime
sql_ranged_throttle=0
}
index cv{
source=cv
path=/usr/local/sphinx/var/data/joomlainx
docinfo=extern
mlock=0
stopwords=
min_prefix_len=0
min_infix_len=0
min_word_len=2
charset_type=utf-8
charset_table=U+FF10..U+FF19->0..9, 0..9, U+FF41..U+FF5A->a..z, U+FF21..U+FF3A->a..z,\
A..Z->a..z, a..z, U+0149, U+017F, U+0138, U+00DF, U+00FF, U+00C0..U+00D6->U+00E0..U+00F6,\
U+00E0..U+00F6, U+00D8..U+00DE->U+00F8..U+00FE, U+00F8..U+00FE, U+0100->U+0101, U+0101,\
U+0102->U+0103, U+0103, U+0104->U+0105, U+0105, U+0106->U+0107, U+0107, U+0108->U+0109,\
U+0109, U+010A->U+010B, U+010B, U+010C->U+010D, U+010D, U+010E->U+010F, U+010F,\
U+0110->U+0111, U+0111, U+0112->U+0113, U+0113, U+0114->U+0115, U+0115, U+0116->U+0117,\
U+0117, U+0118->U+0119, U+0119, U+011A->U+011B, U+011B, U+011C->U+011D, U+011D,\
U+011E->U+011F, U+011F, U+0130->U+0131, U+0131, U+0132->U+0133, U+0133, U+0134->U+0135,\
U+0135, U+0136->U+0137, U+0137, U+0139->U+013A, U+013A, U+013B->U+013C, U+013C,\
U+013D->U+013E, U+013E, U+013F->U+0140, U+0140, U+0141->U+0142, U+0142, U+0143->U+0144,\
U+0144, U+0145->U+0146, U+0146, U+0147->U+0148, U+0148, U+014A->U+014B, U+014B,\
U+014C->U+014D, U+014D, U+014E->U+014F, U+014F, U+0150->U+0151, U+0151, U+0152->U+0153,\
U+0153, U+0154->U+0155, U+0155, U+0156->U+0157, U+0157, U+0158->U+0159, U+0159,\
U+015A->U+015B, U+015B, U+015C->U+015D, U+015D, U+015E->U+015F, U+015F, U+0160->U+0161,\
U+0161, U+0162->U+0163, U+0163, U+0164->U+0165, U+0165, U+0166->U+0167, U+0167,\
U+0168->U+0169, U+0169, U+016A->U+016B, U+016B, U+016C->U+016D, U+016D, U+016E->U+016F,\
U+016F, U+0170->U+0171, U+0171, U+0172->U+0173, U+0173, U+0174->U+0175, U+0175,\
U+0176->U+0177, U+0177, U+0178->U+00FF, U+00FF, U+0179->U+017A, U+017A, U+017B->U+017C,\
U+017C, U+017D->U+017E, U+017E, U+0410..U+042F->U+0430..U+044F, U+0430..U+044F,\
U+05D0..U+05EA, U+0531..U+0556->U+0561..U+0586, U+0561..U+0587, U+0621..U+063A, U+01B9,\
U+01BF, U+0640..U+064A, U+0660..U+0669, U+066E, U+066F, U+0671..U+06D3, U+06F0..U+06FF,\
U+0904..U+0939, U+0958..U+095F, U+0960..U+0963, U+0966..U+096F, U+097B..U+097F,\
U+0985..U+09B9, U+09CE, U+09DC..U+09E3, U+09E6..U+09EF, U+0A05..U+0A39, U+0A59..U+0A5E,\
U+0A66..U+0A6F, U+0A85..U+0AB9, U+0AE0..U+0AE3, U+0AE6..U+0AEF, U+0B05..U+0B39,\
U+0B5C..U+0B61, U+0B66..U+0B6F, U+0B71, U+0B85..U+0BB9, U+0BE6..U+0BF2, U+0C05..U+0C39,\
U+0C66..U+0C6F, U+0C85..U+0CB9, U+0CDE..U+0CE3, U+0CE6..U+0CEF, U+0D05..U+0D39, U+0D60,\
U+0D61, U+0D66..U+0D6F, U+0D85..U+0DC6, U+1900..U+1938, U+1946..U+194F, U+A800..U+A805,\
U+A807..U+A822, U+0386->U+03B1, U+03AC->U+03B1, U+0388->U+03B5, U+03AD->U+03B5,\
U+0389->U+03B7, U+03AE->U+03B7, U+038A->U+03B9, U+0390->U+03B9, U+03AA->U+03B9,\
U+03AF->U+03B9, U+03CA->U+03B9, U+038C->U+03BF, U+03CC->U+03BF, U+038E->U+03C5,\
U+03AB->U+03C5, U+03B0->U+03C5, U+03CB->U+03C5, U+03CD->U+03C5, U+038F->U+03C9,\
U+03CE->U+03C9, U+03C2->U+03C3, U+0391..U+03A1->U+03B1..U+03C1,\
U+03A3..U+03A9->U+03C3..U+03C9, U+03B1..U+03C1, U+03C3..U+03C9, U+0E01..U+0E2E,\
U+0E30..U+0E3A, U+0E40..U+0E45, U+0E47, U+0E50..U+0E59, U+A000..U+A48F, U+4E00..U+9FBF,\
U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF, U+2F800..U+2FA1F, U+2E80..U+2EFF,\
U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF, U+3040..U+309F, U+30A0..U+30FF,\
U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF, U+3130..U+318F, U+A000..U+A48F,\
U+A490..U+A4CF
ngram_len=1
ngram_chars=U+4E00..U+9FBF, U+3400..U+4DBF, U+20000..U+2A6DF, U+F900..U+FAFF,\
U+2F800..U+2FA1F, U+2E80..U+2EFF, U+2F00..U+2FDF, U+3100..U+312F, U+31A0..U+31BF,\
U+3040..U+309F, U+30A0..U+30FF, U+31F0..U+31FF, U+AC00..U+D7AF, U+1100..U+11FF,\
U+3130..U+318F, U+A000..U+A48F, U+A490..U+A4CF
}

indexer{
 mem_limit=32M
}
searchd{
port=3312
log=/usr/local/sphinx/var/log/searchd.log
query_log=/usr/local/sphinx/var/log/query.log
read_timeout=5
max_children=30
pid_file=/usr/local/sphinx/var/log/searchd.pid
max_matches=1000
seamless_rotate=1
}

你可以参考一下,使用这个配置文件需要修改用户,密码保存目录等,来符合你自己mysql的要求。sphinx的官网的配置有一些问题,最关键的就是 morphology=none 这段在中文情况下不能使用,否则会导致无法启动searchd服务。

配置完成后,就可以进行索引:

/usr/local/sphinx/bin/indexer --config /usr/local/sphinx/etc/sphinx.conf --all

然后可以启动searchd

/usr/local/sphinx/bin/searchd --config /usr/local/sphinx/etc/sphinx.conf

我们来用php api进行搜索,将安装目录的api文件都 copy 到 网站的根目录下,最重要的是sphinxapi.php

新建一个test.php文件,代码如下:

<?php 
require 'sphinxapi.php';
$q=$_GET['q']; 
$mode=SPH_MATCH_ALL; 
$host='localhost'; 
$port=3312; 
$index='*'; 
$groupby=''; 
$groupsort='@group desc'; 
$filter='site_id'; 
$filtervals=array(); 
$distinct=''; 
$sortby=''; 
$limit=20; 
$opts=array(
	'before_match'=>'<b>',
	'after_match'=>'</b>',
	'chunk_separator'=>' ... ',
	'limit'=>60,
	'around'=>3
); 
$ranker=SPH_RANK_PROXIMITY_BM25;
$cl=new SphinxClient(); 
$cl->SetServer($host,$port); 
$cl->SetWeights(array(100,1)); 
$cl->SetMatchMode($mode); 
if(count($filtervals))$cl->SetFilter($filter,$filtervals); 
if($groupby)$cl->SetGroupBy($groupby,SPH_GROUPBY_ATTR,$groupsort); 
if($sortby)$cl->SetSortMode(SPH_SORT_EXTENDED,$sortby); 
if($sortexpr)$cl->SetSortMode(SPH_SORT_EXPR,$sortexpr); 
if($distinct)$cl->SetGroupDistinct($distinct); 
if($limit)$cl->SetLimits(0,$limit,($limit>1000)?$limit:1000); 
$cl->SetRankingMode($ranker); 
$cl->SetArrayResult(true); 
$res=$cl->Query($q,$index); 
?>
로그인 후 복사

这是一个最简单的测试实例,注意保存的charset是 utf-8 ,无BOM,现在可以通过 http://www.phpernote.com/test.php 来测试,结果会返回一个数组,sphinx不会返回title和content等内容,因此要根据id在mysql检索以显示文章标题和正文。

目前 sphinx 生成的索引文件不能大于2G

您可能感兴趣的文章

  • Sphinx在windows下安装使用[支持中文全文检索]
  • php.ini 中文英文对照详细配置手册
  • PHP判断上传文件类型最安全,最真实的解决办法
  • php smarty中文截取插件开发示例
  • thinkphp截取中文字符串的方法
  • 在php中分别使用curl的post提交数据的方法和get获取网页数据的方法总结
  • php如何将html中的br换行符转换为文本输入中的换行符
  • php中关于抽象(abstract)类和抽象方法的问题解析
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Call of Duty: Warzone 모바일 게임에서 중국어를 설정하는 방법 Call of Duty: Warzone 모바일 게임에서 중국어를 설정하는 방법 Mar 22, 2024 am 08:41 AM

Call of Duty Warzone은 새로 출시된 모바일 게임입니다. 많은 플레이어들이 이 게임의 언어를 중국어로 설정하는 방법에 대해 매우 궁금해하고 있습니다. 실제로 플레이어는 중국어 언어 팩만 다운로드하면 됩니다. 사용 후 수정하세요. 자세한 내용은 이 중국어 설정 방법 소개에서 배울 수 있습니다. 모바일 게임 Call of Duty: Warzone의 중국어 언어 설정 방법 1. 먼저 게임에 접속한 후 인터페이스 오른쪽 상단에 있는 설정 아이콘을 클릭합니다. 2. 나타나는 메뉴바에서 [다운로드] 옵션을 찾아 클릭하세요. 3. 이 페이지에서 [SIMPLIFIEDCHINESE](중국어 간체)를 선택하여 중국어 간체 설치 패키지를 다운로드합니다. 4. 설정으로 돌아가기

중국어를 표시하도록 Excel 테이블을 설정하는 방법은 무엇입니까? Excel 전환 중국어 작업 튜토리얼 중국어를 표시하도록 Excel 테이블을 설정하는 방법은 무엇입니까? Excel 전환 중국어 작업 튜토리얼 Mar 14, 2024 pm 03:28 PM

Excel 스프레드시트는 현재 많은 사람들이 사용하는 사무용 소프트웨어 중 하나입니다. 일부 사용자는 컴퓨터가 Win11 시스템이므로 중국어 인터페이스로 전환하고 싶지만 작동 방법을 모릅니다. 이 문제를 해결하기 위해 편집자는 모든 사용자의 질문에 답변하기 위해 왔습니다. 오늘의 소프트웨어 튜토리얼에서 공유된 내용을 살펴보겠습니다. Excel을 중국어로 전환하기 위한 튜토리얼: 1. 소프트웨어에 들어가서 페이지 상단 도구 모음 왼쪽에 있는 "파일" 옵션을 클릭합니다. 2. 아래 옵션 중에서 "옵션"을 선택하세요. 3. 새 인터페이스에 들어간 후 왼쪽의 '언어' 옵션을 클릭하세요.

PHP Dompdf에서 한자를 올바르게 표시하는 방법 PHP Dompdf에서 한자를 올바르게 표시하는 방법 Mar 05, 2024 pm 01:03 PM

PHPDompdf에서 중국어 문자를 올바르게 표시하는 방법 PHPDompdf를 사용하여 PDF 파일을 생성할 때 중국어 문자가 왜곡되는 문제가 발생하는 것은 일반적인 문제입니다. 이는 기본적으로 Dompdf에서 사용하는 글꼴 라이브러리에 중국어 문자 세트가 포함되어 있지 않기 때문입니다. 한자를 올바르게 표시하려면 Dompdf의 글꼴을 수동으로 설정하고 한자를 지원하는 글꼴을 선택해야 합니다. 다음은 이 문제를 해결하기 위한 몇 가지 구체적인 단계와 코드 예제입니다. 1단계: 중국어 글꼴 파일 다운로드 먼저,

VSCode를 사용하여 중국어 설정: 전체 가이드 VSCode를 사용하여 중국어 설정: 전체 가이드 Mar 25, 2024 am 11:18 AM

중국어 VSCode 설정: 전체 가이드 소프트웨어 개발에서 Visual Studio Code(줄여서 VSCode)는 일반적으로 사용되는 통합 개발 환경입니다. 중국어를 사용하는 개발자의 경우 VSCode를 중국어 인터페이스로 설정하면 작업 효율성이 향상될 수 있습니다. 이 기사에서는 VSCode를 중국어 인터페이스로 설정하는 방법을 자세히 설명하고 특정 코드 예제를 제공하는 완전한 가이드를 제공합니다. 1단계: 언어 팩을 다운로드하고 설치합니다. VSCode를 연 후 왼쪽을 클릭합니다.

Huawei 휴대폰에서 이중 WeChat 로그인을 구현하는 방법은 무엇입니까? Huawei 휴대폰에서 이중 WeChat 로그인을 구현하는 방법은 무엇입니까? Mar 24, 2024 am 11:27 AM

Huawei 휴대폰에서 이중 WeChat 로그인을 구현하는 방법은 무엇입니까? 소셜 미디어의 등장으로 WeChat은 사람들의 일상 생활에 없어서는 안될 커뮤니케이션 도구 중 하나가 되었습니다. 그러나 많은 사람들이 동일한 휴대폰에서 동시에 여러 WeChat 계정에 로그인하는 문제에 직면할 수 있습니다. Huawei 휴대폰 사용자의 경우 듀얼 WeChat 로그인을 달성하는 것은 어렵지 않습니다. 이 기사에서는 Huawei 휴대폰에서 듀얼 WeChat 로그인을 달성하는 방법을 소개합니다. 우선, 화웨이 휴대폰과 함께 제공되는 EMUI 시스템은 듀얼 애플리케이션 열기라는 매우 편리한 기능을 제공합니다. 앱 듀얼 오픈 기능을 통해 사용자는 동시에

PHP Dompdf에서 중국어 왜곡 문자를 수정하는 효과적인 방법 PHP Dompdf에서 중국어 왜곡 문자를 수정하는 효과적인 방법 Mar 05, 2024 pm 04:45 PM

제목: PHPDompdf에서 중국어 왜곡 문자를 복구하는 효과적인 방법 PHPDompdf를 사용하여 PDF 문서를 생성할 때 중국어 문자가 왜곡되는 것이 일반적인 문제입니다. 이 문제는 일반적으로 Dompdf가 기본적으로 중국어 문자 세트를 지원하지 않아 중국어 콘텐츠가 올바르게 표시되지 않기 때문에 발생합니다. 이 문제를 해결하려면 PHPDompdf의 중국어 왜곡 문제를 해결하는 몇 가지 효과적인 방법을 취해야 합니다. 1. 사용자 정의 글꼴 파일을 사용하십시오. Dompdf의 중국어 문자 왜곡 문제를 해결하는 효과적인 방법은 다음을 사용하는 것입니다.

wwe2k24에 중국어가 있나요? wwe2k24에 중국어가 있나요? Mar 13, 2024 pm 04:40 PM

'WWE2K24'는 비주얼콘셉츠(Visual Concepts)가 제작한 레이싱 스포츠 게임으로, 2024년 3월 9일 정식 출시됐다. 이 게임은 높은 평가를 받았으며, 많은 플레이어들이 중국어 버전이 나올지 궁금해하고 있습니다. 불행하게도 아직까지 "WWE2K24"는 중국어 버전을 출시하지 않았습니다. wwe2k24는 중국어로 제공되나요? 답변: 중국어는 현재 지원되지 않습니다. 스팀 중국 지역 WWE2K24 스탠다드 버전의 가격은 199위안, 디럭스 버전은 329위안, 기념 에디션은 395위안이다. 이 게임은 구성 요구 사항이 상대적으로 높으며 프로세서, 그래픽 카드 또는 실행 메모리 측면에서 특정 표준이 있습니다. 공식 권장 구성 및 최소 구성 소개:

PHP로 txt 파일을 작성할 때 중국어 왜곡 문자를 해결하기 위한 팁 PHP로 txt 파일을 작성할 때 중국어 왜곡 문자를 해결하기 위한 팁 Mar 27, 2024 pm 01:18 PM

PHP로 작성한 중국어 왜곡 문자를 txt 파일로 해결하는 방법 인터넷의 급속한 발전과 함께 널리 사용되는 프로그래밍 언어인 PHP를 점점 더 많은 개발자가 사용하고 있습니다. PHP 개발에서는 중국어 내용이 포함된 txt 파일을 포함하여 텍스트 파일을 읽고 써야 하는 경우가 많습니다. 그러나 인코딩 형식 문제로 인해 때때로 작성된 중국어가 깨져서 나타날 수 있습니다. 이 기사에서는 PHP로 txt 파일에 작성된 중국어 문자 왜곡 문제를 해결하는 몇 가지 기술을 소개하고 구체적인 코드 예제를 제공합니다. PHP, 텍스트의 문제 분석

See all articles