分享mysql中文全文搜索：中文分词简单函数 -php手册-php.cn

집

php教程

php手册

分享mysql中文全文搜索：中文分词简单函数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 am 11:40 AM

分享mysql中文全文搜索：中文分词简单函数
原文地址：http://www.jb100.net/html/content-22-400-1.html
前段时间研究中文全文搜索，结果发现mysql不支持中文的全文搜索。但是有一些解决办法，就是手动把中文单词用空格分开，然后搜索的时候加上 in boolean mode。但是这就带来一个问题，就是中文分词。这个是个很大的难题，貌似中科院有个小组就是专门做中文分词技术的。我们用 php来分词的话，要实现真正语义上的分词是非常困难的，就算实现了效率也不高。一般情况下，我们采用的是如下方法分词：

比如我们有一句话：你好我是刘春龙
那么我们可以这样来分词：你好好我我是是刘刘春春龙

这样虽然看起来有点傻，但是实际应用起来确实可行，因为我们搜索时候输入的关键词也是按照这个方法分词。

下面有个我自己写的函数，可以实现这种分词。传入三个参数，分别是：

1.需要分词的字符串，必须，英文，标点，数字，汉字，日语等都可以。编码为UTF-8
2.是否返回字符串，可选，默认是。如果传入false，那么将返回一个数组。
3.是否base64_encode中文，可选，默认是。Mysql的全文搜索有个配置是 ft_min_word_len 这个值一般是4，而我们分成的中文词语是两个字，就不会被mysql认为是一个词。而base64_encode过后，词语的长度为8，就不存在最小长度问题了。 base64_encode过后数据量会增大 50%。

注意，这里输入和输出的字符串编码都是UTF-8 function string2words($s,$return_string = true,$encode64 = true) { $re = ''; //匹配汉字 if (preg_match_all("/([x{4e00}-x{9fff}]{2,})/u",$s,$ms)) { foreach($ms[0] as $w) { //关键部分：分词 $l = strlen($w)/3; for($i=0;$i { $wi = substr($w,$i*3,6); if (strlen($wi) > 3) { $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; } } } } //匹配数字 if (preg_match_all("/(d+[.]?d+)/",$s,$ms)) { foreach($ms[0] as $wi) { if(strlen($wi) >= 2) { $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; } } $s = preg_replace("/(d+[.]?d+)/",' ',$s); } //去掉所有双字节字符 $s = preg_replace("/([^x{00}-x{ff}]+)/u",' ',$s); $re = $s.' '.$re; if (!$return_string) { $re = preg_replace("/([^d])([,.-?n])([^d])/",'$1 $3',$re); $re = trim(preg_replace("/[s]{2,}/",' ',$re)); $arr = explode(' ',$re); $re = array(); foreach($arr as $a) { if (strlen($a) >= 2) $re[] = $a; } return $re; } else { $re = trim(preg_replace("/[s,.]{2,}/",' ',$re)); return $re; } } 原文地址：http://www.jb100.net/html/content-22-400-1.html

AD：真正免费，域名+虚机+企业邮箱=0元

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7442

Cakephp 튜토리얼

1371

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Python 프로그래밍을 위한 소개 코드 예제에 대해 알아보세요. Jan 04, 2024 am 10:50 AM

소개 코드 예제를 통해 Python 프로그래밍에 대해 알아보세요. Python은 배우기 쉽지만 강력한 프로그래밍 언어입니다. 초보자의 경우 Python 프로그래밍의 입문 코드 예제를 이해하는 것이 매우 중요합니다. 이 문서에서는 빠르게 시작하는 데 도움이 되는 몇 가지 구체적인 코드 예제를 제공합니다. Print HelloWorldprint("HelloWorld") 이것은 Python에서 가장 간단한 코드 예제입니다. print() 함수는 지정된 내용을 출력하는 데 사용됩니다.

실제 사용되는 PHP 변수: 실제 사용 사례 10가지 Feb 19, 2024 pm 03:00 PM

PHP 변수는 프로그램 런타임 중에 값을 저장하며 동적 및 대화형 웹 애플리케이션을 구축하는 데 중요합니다. 이 기사에서는 PHP 변수를 심층적으로 살펴보고 10가지 실제 예제를 통해 실제로 작동하는 모습을 보여줍니다. 1. 사용자 입력 저장 $username=$_POST["username"];$passWord=$_POST["password"] 이 예에서는 양식 제출에서 사용자 이름과 비밀번호를 추출하여 추가 처리를 위해 변수에 저장합니다. 2. 구성 값 $database_host="localhost";$database_username="username";$database_pa를 설정합니다.

초보자부터 숙련자까지: Go 언어에서 일반적으로 사용되는 데이터 구조의 코드 구현 Mar 04, 2024 pm 03:09 PM

제목: 초보자에서 숙달까지: Go 언어에서 일반적으로 사용되는 데이터 구조의 코드 구현 데이터 구조는 프로그래밍에서 중요한 역할을 하며 프로그래밍의 기초입니다. Go 언어에는 일반적으로 사용되는 데이터 구조가 많이 있으며 이러한 데이터 구조의 구현을 마스터하는 것은 좋은 프로그래머가 되는 데 중요합니다. 이 기사에서는 Go 언어에서 일반적으로 사용되는 데이터 구조를 소개하고 독자가 이러한 데이터 구조에 익숙해지는 데 도움이 되는 해당 코드 예제를 제공합니다. 1. 배열(Array) 배열은 기본 자료구조로, 같은 형태의 그룹

Java는 간단한 버블 정렬 코드를 구현합니다. Jan 30, 2024 am 09:34 AM

Java 버블 정렬의 가장 간단한 코드 예제 버블 정렬은 인접한 요소의 비교와 교환을 통해 순서가 지정된 순서로 정렬되는 순서를 점진적으로 조정하는 일반적인 정렬 알고리즘입니다. 다음은 버블 정렬을 구현하는 방법을 보여주는 간단한 Java 코드 예제입니다. publicclassBubbleSort{publicstaticvoidbubbleSort(int[]arr){int

Go 언어 프로그래밍 예제: 웹 개발의 코드 예제 Mar 04, 2024 pm 04:54 PM

"Go 언어 프로그래밍 예제: 웹 개발의 코드 예제" 인터넷의 급속한 발전과 함께 웹 개발은 다양한 산업에서 없어서는 안 될 부분이 되었습니다. 강력한 기능과 뛰어난 성능을 갖춘 프로그래밍 언어인 Go 언어는 웹 개발 개발자들의 선호도가 점점 높아지고 있습니다. 이 기사에서는 특정 코드 예제를 통해 웹 개발에 Go 언어를 사용하는 방법을 소개하므로 독자는 Go 언어를 더 잘 이해하고 사용하여 자신의 웹 애플리케이션을 구축할 수 있습니다. 1. 간단한 HTTP 서버 먼저 시작해 보겠습니다.

PHP를 사용하여 재고 관리 시스템에서 재고 관리 기능 코드를 작성하는 방법 Aug 06, 2023 pm 04:49 PM

PHP를 사용하여 재고 관리 시스템에서 재고 관리 기능 코드를 작성하는 방법 재고 관리는 많은 기업에서 없어서는 안될 부분입니다. 창고가 여러 개인 회사의 경우 재고 관리 기능이 특히 중요합니다. 재고를 적절하게 관리하고 추적함으로써 회사는 서로 다른 창고 간에 재고를 할당하고, 운영 비용을 최적화하며, 협업 효율성을 향상시킬 수 있습니다. 이 기사에서는 PHP를 사용하여 재고 창고 관리 기능을 위한 코드를 작성하는 방법을 소개하고 관련 코드 예제를 제공합니다. 1. 재고 창고 관리 기능에 대한 코드 작성을 시작하기 전에 데이터베이스를 구축하십시오.

지침 및 예: Java에서 선택 정렬 알고리즘을 구현하는 방법 알아보기 Feb 18, 2024 am 10:52 AM

Java 선택 정렬 방법 코드 작성 가이드 및 예제 선택 정렬은 정렬되지 않은 요소 중에서 가장 작은(또는 가장 큰) 요소를 매번 선택하고 모든 요소가 정렬될 때까지 교환하는 간단하고 직관적인 정렬 알고리즘입니다. 이 기사에서는 선택 정렬을 위한 코드 작성 가이드를 제공하고 특정 Java 샘플 코드를 첨부합니다. 알고리즘 원리 선택 정렬의 기본 원리는 정렬할 배열을 정렬된 부분과 정렬되지 않은 부분의 두 부분으로 나누는 것입니다. 매번 정렬되지 않은 부분에서 가장 작은(또는 가장 큰) 요소가 선택되어 정렬된 부분의 끝에 배치됩니다. 위의 내용을 반복하세요.

Huawei Cloud Edge Computing 상호 연결 가이드: 인터페이스를 빠르게 구현하기 위한 Java 코드 예제 Jul 05, 2023 pm 09:57 PM

Huawei 클라우드 엣지 컴퓨팅 상호 연결 가이드: 인터페이스를 신속하게 구현하기 위한 Java 코드 샘플 IoT 기술의 급속한 발전과 엣지 컴퓨팅의 부상으로 점점 더 많은 기업이 엣지 컴퓨팅 애플리케이션에 관심을 갖기 시작했습니다. Huawei Cloud는 엣지 컴퓨팅 서비스를 제공하여 기업에 매우 안정적인 컴퓨팅 리소스와 편리한 개발 환경을 제공하여 엣지 컴퓨팅 애플리케이션을 보다 쉽게 구현할 수 있도록 합니다. 이 기사에서는 Java 코드를 통해 Huawei Cloud 엣지 컴퓨팅 인터페이스를 빠르게 구현하는 방법을 소개합니다. 먼저 개발 환경을 준비해야 합니다. Java Development Kit가 설치되어 있는지 확인하십시오(

See all articles