xunsearch自定义词库的TF、IDF作用?
最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!
1.增加自定义词库后的奇怪现象.
我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1))
,丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))
。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!
2.自定义词库中的TF、IDF值的作用
DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)
回复内容:
最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!
1.增加自定义词库后的奇怪现象.
我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1))
,丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))
。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!
2.自定义词库中的TF、IDF值的作用
DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

PHP 8.4 带来了多项新功能、安全性改进和性能改进,同时弃用和删除了大量功能。 本指南介绍了如何在 Ubuntu、Debian 或其衍生版本上安装 PHP 8.4 或升级到 PHP 8.4

CakePHP 是 PHP 的开源框架。它的目的是使应用程序的开发、部署和维护变得更加容易。 CakePHP 基于类似 MVC 的架构,功能强大且易于掌握。模型、视图和控制器 gu
