zg手册 之 Mysql 开发(1)-- 中文全文检索插件开发_MySQL
目前的中文检索查询方案
基于数据库的模糊匹配(运行时字符串查找,查询速度比较慢)
专有的全文检索引擎(sphinx, lucene等)
我曾经遇到一个项目,数据量在百万级别,不需要高级的全文检索方式(没有复杂的匹配需求,没有复杂的过滤条件),只是需要根据关键词检索数据,当时采用的 mysql 全文检索插件的方式来满足的项目需求。
Mysql 的中文全文检索插件开发
Mysql 的 MyISAM 引擎支持第三方的全文检索插件,可以用第三方插件替换默认的全文检索插件。
在全文检索插件中提供中文分词算法,告诉MyISAM如何分词,并创建索引。
查询的时候通过插件分词,查询索引快速定位数据记录。
插件开发的具体方法
主要通过代码注释描述插件的开发方法,创建文件 tft.c,代码如下
#include <stdlib.h>#include <ctype.h>// mysql 插件必须包含的头文件#include <mysql>// 这是我自己写的一个分词库,没有什么优化,可以替换为其他开源的实现。#include <st_darts.h>#include <st_utils.h>#if !defined(__attribute__) && (defined(__cplusplus) /|| !defined(__GNUC__) || __GNUC__ == 2 && __GNUC_MINOR__ mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO){ bool_info.yesno = 1; } // 传递词给 mysql,用来创建索引,或者查询。 param->mysql_add_word(param, word, len, &bool_info);}/* 英文分词简单处理,用空格分隔 param 插件环境 描述: 解析英文的文档或者查询词,传递给 mysql 的索引引擎,用来创建索引,或者进行查询。*/static int tft_parse_en(MYSQL_FTPARSER_PARAM *param){ char *end, *start, *docend= param->doc + param->length; number_of_calls++; for (end= start= param->doc;; end++) { if (end == docend) { if (end > start) add_word(param, start, end - start); break; } else if (isspace(*end)) { if (end > start) add_word(param, start, end - start); start= end + 1; } } return 0;}/* 分词函数,对文档或者查询词进行分词。如果是全英文文档,则调用英文分词。*/#define c_uWordsCount 1024static int tft_parse(MYSQL_FTPARSER_PARAM *param){ if (NULL == param->doc || 0 == param->length){ return 0; } // 统计调用次数 number_of_calls++; st_timer stTimerType = ST_TIMER_MICRO_SEC; char* start = param->doc; char* docend = param->doc + param->length; // 初始化分词 handler struct st_wordInfo wordInfo[c_uWordsCount] = { { 0, 0, 0 } }; st_darts_state dState; stDartsStateInit(g_s_pDarts, &dState, start, docend); uint32_t uWordsCount = 0; long long queryBeginTime = stTimer(stTimerType); // 循环获取中文分词 while(uWordsCount </st_utils.h></st_darts.h></mysql></ctype.h></stdlib.h>

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

InnoDB的全文搜索功能非常强大,能够显著提高数据库查询效率和处理大量文本数据的能力。1)InnoDB通过倒排索引实现全文搜索,支持基本和高级搜索查询。2)使用MATCH和AGAINST关键字进行搜索,支持布尔模式和短语搜索。3)优化方法包括使用分词技术、定期重建索引和调整缓存大小,以提升性能和准确性。

本文討論了使用MySQL的Alter Table語句修改表,包括添加/刪除列,重命名表/列以及更改列數據類型。

全表掃描在MySQL中可能比使用索引更快,具體情況包括:1)數據量較小時;2)查詢返回大量數據時;3)索引列不具備高選擇性時;4)複雜查詢時。通過分析查詢計劃、優化索引、避免過度索引和定期維護表,可以在實際應用中做出最優選擇。

是的,可以在 Windows 7 上安裝 MySQL,雖然微軟已停止支持 Windows 7,但 MySQL 仍兼容它。不過,安裝過程中需要注意以下幾點:下載適用於 Windows 的 MySQL 安裝程序。選擇合適的 MySQL 版本(社區版或企業版)。安裝過程中選擇適當的安裝目錄和字符集。設置 root 用戶密碼,並妥善保管。連接數據庫進行測試。注意 Windows 7 上的兼容性問題和安全性問題,建議升級到受支持的操作系統。

文章討論了為MySQL配置SSL/TLS加密,包括證書生成和驗證。主要問題是使用自簽名證書的安全含義。[角色計數:159]

文章討論了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比較了它們對初學者和高級用戶的功能和適合性。[159個字符]

聚集索引和非聚集索引的區別在於:1.聚集索引將數據行存儲在索引結構中,適合按主鍵查詢和範圍查詢。 2.非聚集索引存儲索引鍵值和數據行的指針,適用於非主鍵列查詢。
