MYSQL中的中文模糊搜索除了使用全文索引外还有什么办法呢?
环 境:winxp
语 言:php5.49
数据库:musql5.6
LEVER:一个初学PHP和MYSQL的小粉
数据量:30万左右,不会超过50万。
就是这样的一个网站,就是这样的一个水平的我,却在这几天被一个难题难死了。
因为我之前的这个站是用asp+mssql搭建的,一直在托管的服务器上跑的还行,某一天想把数据库放到阿里云上,查了一下报价,发现mysql的价格比mssql的价格便宜近10倍多,这才认识到为什么开源软件这么受欢迎了,好吧,我也改一下数据库,顺便学习一下早就想学的PHP,说干就干,装PHP装mysql,中间碰到的这个苦难就不说了,改写起来还算顺利,有一些弱智的问题也得到了网友的热情回答,还算顺利,但是直到昨天,我在改写原来MSsql里面的全文索引语句为PHP的全文索引语句时,无意中看到,MSSQL居然不支持中文的全文索引,于是我感到无比的挫败感,这该怎么办呢?这么好的数据库却有这么一个难题,于是想对于一个如此成熟的数据库,同时全文索引又是一个常用功能,那么网上的解决方案一定是现成的,好吧,我开始了百度,这下才发现,很难找到像样的资料可以轻松解决此问题,很多解决方案是那么那么的晦涩难懂。对于我这样的水平的人,看完都不容易更不要说执行了,尝试了其中一种Sphinx+CoreSeek4.1的方案,连安装调试都过不去,可以找到的资料也是很少很少,唉。。。愁人的
所以,我就想问问大家,为什么你们都不需要解决中文模糊搜索过程中全文索引的建立和使用问题吗?这不是一个很普遍的应用吗?
再或者,请你们帮我分析一下,对于这样一个30万左右的数据库,一共10个字段,想对其中5个字段实现模糊搜索,是通过spnix/coreseek建立中文的全文索引的搜索速度快,还是直接使用like 汉字关键词%的速度快呢?或者慢的话又能慢多少呢?
我现在没有这方面的经验,所以一直在纠结,要是二者没有显著性差别,我觉得为这个搭建一个spnix/coreseek环境是不是有些太那个了呢?而且还那么那么那么那么难搭建的,真心懊恼,不知道咋办了,请帮我一下好吗?谢谢大家。
回复内容:
环 境:winxp
语 言:php5.49
数据库:musql5.6
LEVER:一个初学PHP和MYSQL的小粉
数据量:30万左右,不会超过50万。
就是这样的一个网站,就是这样的一个水平的我,却在这几天被一个难题难死了。
因为我之前的这个站是用asp+mssql搭建的,一直在托管的服务器上跑的还行,某一天想把数据库放到阿里云上,查了一下报价,发现mysql的价格比mssql的价格便宜近10倍多,这才认识到为什么开源软件这么受欢迎了,好吧,我也改一下数据库,顺便学习一下早就想学的PHP,说干就干,装PHP装mysql,中间碰到的这个苦难就不说了,改写起来还算顺利,有一些弱智的问题也得到了网友的热情回答,还算顺利,但是直到昨天,我在改写原来MSsql里面的全文索引语句为PHP的全文索引语句时,无意中看到,MSSQL居然不支持中文的全文索引,于是我感到无比的挫败感,这该怎么办呢?这么好的数据库却有这么一个难题,于是想对于一个如此成熟的数据库,同时全文索引又是一个常用功能,那么网上的解决方案一定是现成的,好吧,我开始了百度,这下才发现,很难找到像样的资料可以轻松解决此问题,很多解决方案是那么那么的晦涩难懂。对于我这样的水平的人,看完都不容易更不要说执行了,尝试了其中一种Sphinx+CoreSeek4.1的方案,连安装调试都过不去,可以找到的资料也是很少很少,唉。。。愁人的
所以,我就想问问大家,为什么你们都不需要解决中文模糊搜索过程中全文索引的建立和使用问题吗?这不是一个很普遍的应用吗?
再或者,请你们帮我分析一下,对于这样一个30万左右的数据库,一共10个字段,想对其中5个字段实现模糊搜索,是通过spnix/coreseek建立中文的全文索引的搜索速度快,还是直接使用like 汉字关键词%的速度快呢?或者慢的话又能慢多少呢?
我现在没有这方面的经验,所以一直在纠结,要是二者没有显著性差别,我觉得为这个搭建一个spnix/coreseek环境是不是有些太那个了呢?而且还那么那么那么那么难搭建的,真心懊恼,不知道咋办了,请帮我一下好吗?谢谢大家。
mysql5.7 支持中文分词 全文索引
你既然用阿里云了,那就尝试他们的【开放搜索】服务看看
或者你觉得拥抱开源,也可以尝试在linux下配置segmentfault.com在用或曾经用过的http://www.xunsearch.com/,个人感觉相对还是比较简单的,而且性能比mysql全文索引要强
coreseek,sphinx拿来用研究试试
表引擎建议使用MySQL5.6.4后的InnoDB,是支持中文索引的.简易中文分词SCWS提供有PECL扩展以及中文词典,PHP使用起来很方便:
http://www.xunsearch.com/scws/docs.php#instscws
比如要实现对自己博客的所有文章进行全文搜索:
show variables like '%ft_min%' 可见默认值:
MyISAM: ft_min_word_len=4
InnoDB: innodb_ft_min_token_size=3
把单词最小单词长度设为1,这样就能索引和查找只有一个字符的关键词了:
执行 set global innodb_ft_min_token_size=1;
返回 Variable 'innodb_ft_min_token_size' is a read only variable
所以只能在my.cnf的[mysqld]下配置:
<code>ft_min_word_len=1 innodb_ft_min_token_size=1 </code>
<code>建表: CREATE TABLE `articles` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(200) NOT NULL DEFAULT '', `content` text, `article_fc` text, PRIMARY KEY (`id`), FULLTEXT (`article_fc`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8 COLLATE=utf8_general_ci; 或者后期添加FULLTEXT: ALTER TABLE `articles` ADD FULLTEXT (`article_fc`); INSERT INTO `articles`(`title`, `content`, `article_fc`) VALUES ('标题1', '中国人民银行', '中国 人民 银行 中国人民银行'); INSERT INTO `articles`(`title`, `content`, `article_fc`) VALUES ('标题2', '中华民族伟大复兴', '中华 民族 伟大 复兴 中华民族'); SELECT * FROM articles WHERE MATCH(article_fc) AGAINST('中国 复兴');</code>
如果只是查询表单自动完成呢
有没有树型存储结构来存放拼音对应的单词
建议选用第三方专用搜索引擎
ElasticSearch

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

MySQL 8.4 (2024 年時点の最新の LTS リリース) で導入された主な変更の 1 つは、「MySQL Native Password」プラグインがデフォルトで有効ではなくなったことです。さらに、MySQL 9.0 ではこのプラグインが完全に削除されています。 この変更は PHP および他のアプリに影響します

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

CMSはコンテンツマネジメントシステムの略称です。これは、ユーザーが高度な技術知識を必要とせずにデジタル コンテンツを作成、管理、変更できるようにするソフトウェア アプリケーションまたはプラットフォームです。 CMS を使用すると、ユーザーはコンテンツを簡単に作成および整理できます

配列は、プログラミングのデータを処理するために使用される線形データ構造です。アレイを処理している場合は、既存の配列に新しい要素を追加する必要があります。この記事では、各方法のコード例、出力、時間と空間の複雑さ分析を使用して、PHPの配列の最後に要素を追加するいくつかの方法について説明します。 アレイに要素を追加するさまざまな方法は次のとおりです。 四角い括弧を使用します[] PHPでは、配列の最後に要素を追加する方法は、四角い括弧[]を使用することです。この構文は、単一の要素のみを追加する場合にのみ機能します。以下は構文です。 $ array [] = value; 例
