Maison php教程 php手册 分享mysql中文全文搜索:中文分词简单函数

分享mysql中文全文搜索:中文分词简单函数

Jun 07, 2016 am 11:40 AM

分享mysql中文全文搜索:中文分词简单函数
原文地址:http://www.jb100.net/html/content-22-400-1.html
前段时间研究中文全文搜索,结果发现mysql不支持中文的全文搜索。但是有一些解决办法,就是手动把中文单词用空格分开,然后搜索的时候加 上 in boolean mode。 但是这就带来一个问题,就是中文分词。这个是个很大的难题,貌似中科院有个小组就是专门做中文分词技术的。我们用 php来分词的话,要实现真正语义上的分词是非常困难的,就算实现了效率也不高。一般情况下,我们采用的是如下方法分词:

比如我们有一句话:你好我是刘春龙
那么我们可以这样来分词: 你好 好我 我是 是刘 刘春 春龙


这样虽然看起来有点傻,但是实际应用起来确实可行,因为我们搜索时候输入的关键词也是按照这个方法分词。

下面有个我自己写的函数,可以实现这种分词。传入三个参数,分别是:

1.需要分词的字符串,必须,英文,标点,数字,汉字,日语等都可以。编码为UTF-8
2.是否返回字符串,可选,默认是。如果传入false,那么将返回一个数组。
3.是否base64_encode中文,可选,默认是。Mysql的全文搜索有个配置是 ft_min_word_len 这个值一般是4,而 我们分成的中文词语是两个字,就不会被mysql认为是一个词。而base64_encode过后,词语的长度为8,就不存在最小长度问题 了。 base64_encode过后数据量会增大 50%。


注意,这里输入和输出的字符串编码都是UTF-8 function string2words($s,$return_string = true,$encode64 = true) <br> { <br>         $re = ''; <br>         //匹配汉字 <br>         if (preg_match_all("/([x{4e00}-x{9fff}]{2,})/u",$s,$ms)) <br>         { <br>                 foreach($ms[0] as $w) <br>                 { <br>                         //关键部分:分词 <br>                         $l = strlen($w)/3; <br>                         for($i=0;$i                         { <br>                                 $wi = substr($w,$i*3,6); <br>                                 if (strlen($wi) > 3) <br>                                 { <br>                                         $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; <br>                                 } <br>                         } <br>                 } <br>         } <br>         //匹配数字 <br>         if (preg_match_all("/(d+[.]?d+)/",$s,$ms)) <br>         { <br>                 foreach($ms[0] as $wi) <br>                 { <br>                         if(strlen($wi) >= 2) <br>                         { <br>                                 $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; <br>                         } <br>                 } <br>                 $s = preg_replace("/(d+[.]?d+)/",' ',$s); <br>         } <br>         //去掉所有双字节字符 <br>         $s = preg_replace("/([^x{00}-x{ff}]+)/u",' ',$s); <br>         $re = $s.' '.$re; <br>         if (!$return_string) <br>         { <br>                 $re = preg_replace("/([^d])([,.-?n])([^d])/",'$1 $3',$re); <br>                 $re = trim(preg_replace("/[s]{2,}/",' ',$re)); <br>                 $arr = explode(' ',$re); <br>                 $re = array(); <br>                 foreach($arr as $a) <br>                 { <br>                         if (strlen($a) >= 2) $re[] = $a; <br>                 } <br>                 return $re; <br>         } <br>         else <br>         { <br>                 $re = trim(preg_replace("/[s,.]{2,}/",' ',$re)); <br>                 return $re; <br>         } <br> } 原文地址:http://www.jb100.net/html/content-22-400-1.html

AD:真正免费,域名+虚机+企业邮箱=0元

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Découvrez des exemples de code d'introduction à la programmation Python. Découvrez des exemples de code d'introduction à la programmation Python. Jan 04, 2024 am 10:50 AM

Découvrez la programmation Python avec des exemples de code d'introduction. Python est un langage de programmation facile à apprendre mais puissant. Pour les débutants, il est très important de comprendre les exemples de code d’introduction à la programmation Python. Cet article vous fournira quelques exemples de code concrets pour vous aider à démarrer rapidement. Imprimer HelloWorldprint("HelloWorld") Il s'agit de l'exemple de code le plus simple en Python. La fonction print() est utilisée pour afficher le contenu spécifié

Variables PHP en action : 10 exemples concrets d'utilisation Variables PHP en action : 10 exemples concrets d'utilisation Feb 19, 2024 pm 03:00 PM

Les variables PHP stockent les valeurs pendant l'exécution du programme et sont cruciales pour créer des applications WEB dynamiques et interactives. Cet article examine en profondeur les variables PHP et les montre en action avec 10 exemples réels. 1. Stocker l'entrée de l'utilisateur $username=$_POST["username"];$passWord=$_POST["password"]; Cet exemple extrait le nom d'utilisateur et le mot de passe de la soumission du formulaire et les stocke dans des variables pour un traitement ultérieur. 2. Définissez la valeur de configuration $database_host="localhost";$database_username="username";$database_pa

Java implémente un code de tri à bulles simple Java implémente un code de tri à bulles simple Jan 30, 2024 am 09:34 AM

L'exemple de code le plus simple du tri à bulles Java est un algorithme de tri courant. Son idée de base est d'ajuster progressivement la séquence à trier en une séquence ordonnée grâce à la comparaison et à l'échange d'éléments adjacents. Voici un exemple de code Java simple qui montre comment implémenter le tri à bulles : publicclassBubbleSort{publicstaticvoidbubbleSort(int[]arr){int

Du débutant au compétent : implémentation de code de structures de données couramment utilisées en langage Go Du débutant au compétent : implémentation de code de structures de données couramment utilisées en langage Go Mar 04, 2024 pm 03:09 PM

Titre : Du débutant à la maîtrise : implémentation du code des structures de données couramment utilisées dans le langage Go. Les structures de données jouent un rôle essentiel dans la programmation et constituent la base de la programmation. Dans le langage Go, il existe de nombreuses structures de données couramment utilisées, et maîtriser la mise en œuvre de ces structures de données est crucial pour devenir un bon programmeur. Cet article présentera les structures de données couramment utilisées dans le langage Go et donnera des exemples de code correspondants pour aider les lecteurs à démarrer et à maîtriser ces structures de données. 1. Array Array est une structure de données de base, qui est un groupe du même type.

Exemples de programmation en langage Go : exemples de code dans le développement Web Exemples de programmation en langage Go : exemples de code dans le développement Web Mar 04, 2024 pm 04:54 PM

"Exemples de programmation en langage Go : exemples de code dans le développement Web" Avec le développement rapide d'Internet, le développement Web est devenu un élément indispensable dans diverses industries. En tant que langage de programmation doté de fonctions puissantes et de performances supérieures, le langage Go est de plus en plus privilégié par les développeurs en développement Web. Cet article expliquera comment utiliser le langage Go pour le développement Web à travers des exemples de code spécifiques, afin que les lecteurs puissent mieux comprendre et utiliser le langage Go pour créer leurs propres applications Web. 1. Serveur HTTP simple Commençons par un

Comment utiliser PHP pour écrire le code de la fonction de gestion des stocks dans le système de gestion des stocks Comment utiliser PHP pour écrire le code de la fonction de gestion des stocks dans le système de gestion des stocks Aug 06, 2023 pm 04:49 PM

Comment utiliser PHP pour écrire le code de la fonction de gestion des stocks dans le système de gestion des stocks La gestion des stocks est un élément indispensable dans de nombreuses entreprises. Pour les entreprises disposant de plusieurs entrepôts, la fonction de gestion des stocks est particulièrement importante. En gérant et en suivant correctement les stocks, les entreprises peuvent répartir les stocks entre différents entrepôts, optimiser les coûts d'exploitation et améliorer l'efficacité de la collaboration. Cet article explique comment utiliser PHP pour écrire du code pour les fonctions de gestion d'entrepôt et vous fournit des exemples de code pertinents. 1. Établissez la base de données avant de commencer à écrire le code de la fonction de gestion des entrepôts de stocks.

Conseils et exemples : Apprenez à implémenter l'algorithme de tri par sélection en Java Conseils et exemples : Apprenez à implémenter l'algorithme de tri par sélection en Java Feb 18, 2024 am 10:52 AM

Guide de rédaction de code et exemples de la méthode de tri par sélection Java Le tri par sélection est un algorithme de tri simple et intuitif. L'idée est de sélectionner à chaque fois l'élément le plus petit (ou le plus grand) parmi les éléments non triés et de l'échanger jusqu'à ce que tous les éléments soient triés. Cet article fournira un guide d'écriture de code pour le tri des sélections et joindra un exemple de code Java spécifique. Principe de l'algorithme Le principe de base du tri par sélection est de diviser le tableau à trier en deux parties, triée et non triée. A chaque fois, le plus petit (ou le plus grand) élément est sélectionné dans la partie non triée et placé à la fin de la partie triée. Répétez ce qui précède

Guide d'interconnexion Huawei Cloud Edge Computing : exemples de code Java pour implémenter rapidement des interfaces Guide d'interconnexion Huawei Cloud Edge Computing : exemples de code Java pour implémenter rapidement des interfaces Jul 05, 2023 pm 09:57 PM

Guide d'interconnexion Huawei Cloud Edge Computing : exemples de code Java pour implémenter rapidement des interfaces Avec le développement rapide de la technologie IoT et l'essor de l'informatique de pointe, de plus en plus d'entreprises commencent à s'intéresser à l'application de l'informatique de pointe. Huawei Cloud fournit des services d'informatique de pointe, offrant aux entreprises des ressources informatiques hautement fiables et un environnement de développement pratique, facilitant ainsi la mise en œuvre des applications d'informatique de pointe. Cet article explique comment implémenter rapidement l'interface informatique de pointe Huawei Cloud via le code Java. Tout d’abord, nous devons préparer l’environnement de développement. Assurez-vous que le kit de développement Java est installé (

See all articles