分享mysql中文全文搜索：中文分词简单函数 -php手册-php.cn

ホームページ

php教程

php手册

分享mysql中文全文搜索：中文分词简单函数

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 am 11:40 AM

分享mysql中文全文搜索：中文分词简单函数
原文地址：http://www.jb100.net/html/content-22-400-1.html
前段时间研究中文全文搜索，结果发现mysql不支持中文的全文搜索。但是有一些解决办法，就是手动把中文单词用空格分开，然后搜索的时候加上 in boolean mode。但是这就带来一个问题，就是中文分词。这个是个很大的难题，貌似中科院有个小组就是专门做中文分词技术的。我们用 php来分词的话，要实现真正语义上的分词是非常困难的，就算实现了效率也不高。一般情况下，我们采用的是如下方法分词：

比如我们有一句话：你好我是刘春龙
那么我们可以这样来分词：你好好我我是是刘刘春春龙

这样虽然看起来有点傻，但是实际应用起来确实可行，因为我们搜索时候输入的关键词也是按照这个方法分词。

下面有个我自己写的函数，可以实现这种分词。传入三个参数，分别是：

1.需要分词的字符串，必须，英文，标点，数字，汉字，日语等都可以。编码为UTF-8
2.是否返回字符串，可选，默认是。如果传入false，那么将返回一个数组。
3.是否base64_encode中文，可选，默认是。Mysql的全文搜索有个配置是 ft_min_word_len 这个值一般是4，而我们分成的中文词语是两个字，就不会被mysql认为是一个词。而base64_encode过后，词语的长度为8，就不存在最小长度问题了。 base64_encode过后数据量会增大 50%。

注意，这里输入和输出的字符串编码都是UTF-8 function string2words($s,$return_string = true,$encode64 = true) { $re = ''; //匹配汉字 if (preg_match_all("/([x{4e00}-x{9fff}]{2,})/u",$s,$ms)) { foreach($ms[0] as $w) { //关键部分：分词 $l = strlen($w)/3; for($i=0;$i { $wi = substr($w,$i*3,6); if (strlen($wi) > 3) { $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; } } } } //匹配数字 if (preg_match_all("/(d+[.]?d+)/",$s,$ms)) { foreach($ms[0] as $wi) { if(strlen($wi) >= 2) { $re .= ($encode64)?' '.str_replace(',','@',base64_encode($wi)):' '.$wi; } } $s = preg_replace("/(d+[.]?d+)/",' ',$s); } //去掉所有双字节字符 $s = preg_replace("/([^x{00}-x{ff}]+)/u",' ',$s); $re = $s.' '.$re; if (!$return_string) { $re = preg_replace("/([^d])([,.-?n])([^d])/",'$1 $3',$re); $re = trim(preg_replace("/[s]{2,}/",' ',$re)); $arr = explode(' ',$re); $re = array(); foreach($arr as $a) { if (strlen($a) >= 2) $re[] = $a; } return $re; } else { $re = trim(preg_replace("/[s,.]{2,}/",' ',$re)); return $re; } } 原文地址：http://www.jb100.net/html/content-22-400-1.html

AD：真正免费，域名+虚机+企业邮箱=0元

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7455

CakePHP チュートリアル

1375

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Python プログラミングの入門コード例について学びます。 Jan 04, 2024 am 10:50 AM

入門コード例で Python プログラミングについて学ぶ Python は、習得が簡単でありながら強力なプログラミング言語です。初心者にとって、Python プログラミングの入門コード例を理解することは非常に重要です。この記事では、すぐに始めるのに役立つ具体的なコード例をいくつか紹介します。 Print HelloWorldprint("HelloWorld") これは、Python の最も単純なコード例です。 print()関数は、指定された内容を出力するために使用されます。

PHP 変数の実際の使用: 10 の実際の使用例 Feb 19, 2024 pm 03:00 PM

PHP 変数はプログラムの実行中に値を保存し、動的でインタラクティブな WEB アプリケーションを構築するために重要です。この記事では、PHP 変数を詳しく説明し、10 個の実際の例を使用して実際に動作する様子を示します。 1. ユーザー入力の保存 $username=$_POST["username"];$passWord=$_POST["password"]; この例では、フォーム送信からユーザー名とパスワードを抽出し、その後の処理のために変数に保存します。 2. 構成値 $database_host="localhost";$database_username="username";$database_pa を設定します。

Go 言語プログラミングの例: Web 開発のコード例 Mar 04, 2024 pm 04:54 PM

「Go 言語プログラミングの例: Web 開発におけるコード例」インターネットの急速な発展に伴い、Web 開発はさまざまな業界で不可欠な部分になりました。 Go 言語は、強力な機能と優れたパフォーマンスを備えたプログラミング言語として、Web 開発の開発者にますます好まれています。この記事では、読者が Go 言語をより深く理解し、Go 言語を使用して独自の Web アプリケーションを構築できるように、具体的なコード例を通じて Web 開発に Go 言語を使用する方法を紹介します。 1. シンプルな HTTP サーバーまず、

Java は単純なバブルソートコードを実装します Jan 30, 2024 am 09:34 AM

Java バブルソートの最も簡単なコード例バブルソートは一般的な並べ替えアルゴリズムであり、その基本的な考え方は、並べ替える順序を、隣接する要素の比較と交換を通じて順序付けされた順序に徐々に調整することです。次に、バブルソートの実装方法を示す簡単な Java コード例を示します。 publicclassBubbleSort{publicstaticvoidbubbleSort(int[]arr){int

初心者から熟練者まで: Go 言語で一般的に使用されるデータ構造のコード実装 Mar 04, 2024 pm 03:09 PM

タイトル: 初心者から熟練者まで: Go 言語で一般的に使用されるデータ構造のコード実装データ構造はプログラミングにおいて重要な役割を果たし、プログラミングの基礎です。 Go 言語には、一般的に使用されるデータ構造が多数あり、これらのデータ構造の実装をマスターすることは、優れたプログラマーになるために重要です。この記事では、Go 言語で一般的に使用されるデータ構造を紹介し、読者がこれらのデータ構造を使い始めて習熟するのに役立つ、対応するコード例を示します。 1. 配列配列は基本的なデータ構造であり、同じ型のグループです。

PHPを使用して在庫管理システムに在庫管理機能コードを記述する方法 Aug 06, 2023 pm 04:49 PM

PHP を使用して在庫管理システムの在庫管理機能コードを記述する方法在庫管理は多くの企業にとって不可欠な部分です。複数の倉庫を持つ企業にとって、在庫管理機能は特に重要です。在庫を適切に管理および追跡することで、企業は異なる倉庫間で在庫を割り当て、運用コストを最適化し、コラボレーション効率を向上させることができます。この記事では、PHP を使用して在庫倉庫管理機能のコードを記述する方法を紹介し、関連するコード例を示します。 1. 在庫倉庫管理機能のコードを書き始める前に、データベースを確立します。

ガイダンスと例: Java で選択ソートアルゴリズムを実装する方法を学習します。 Feb 18, 2024 am 10:52 AM

Java 選択ソート方法のコード記述ガイドと例選択ソートは、シンプルで直観的なソートアルゴリズムです。そのアイデアは、ソートされていない要素から毎回最小 (または最大) の要素を選択し、すべての要素がソートされるまで交換することです。この記事では、選択項目の並べ替えのためのコード作成ガイドを提供し、特定の Java サンプルコードを添付します。アルゴリズム原理選択ソートの基本原理は、ソート対象の配列をソート済み部分とソートされていない部分の 2 つの部分に分割し、その都度、未ソート部分から最小 (または最大) の要素が選択され、ソート済み部分の最後に配置されます。上記を繰り返します

Huawei Cloud Edge Computing Interconnection Guide: インターフェースを迅速に実装するための Java コード例 Jul 05, 2023 pm 09:57 PM

Huawei クラウドエッジコンピューティング相互接続ガイド: インターフェイスを迅速に実装するための Java コードサンプル IoT テクノロジーの急速な発展とエッジコンピューティングの台頭により、ますます多くの企業がエッジコンピューティングのアプリケーションに注目し始めています。 Huawei Cloud はエッジコンピューティングサービスを提供し、企業に信頼性の高いコンピューティングリソースと便利な開発環境を提供し、エッジコンピューティングアプリケーションの実装を容易にします。この記事では、Java コードを通じて Huawei Cloud エッジコンピューティングインターフェイスを迅速に実装する方法を紹介します。まずは開発環境を準備する必要があります。 Java Development Kit がインストールされていることを確認してください (

See all articles