Table des matières
1.增加自定义词库后的奇怪现象.
2.自定义词库中的TF、IDF值的作用
回复内容:
Maison développement back-end tutoriel php xunsearch自定义词库的TF、IDF作用?

xunsearch自定义词库的TF、IDF作用?

Jun 06, 2016 pm 08:08 PM
php xunsearch

最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!

1.增加自定义词库后的奇怪现象.

我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1)),丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!

2.自定义词库中的TF、IDF值的作用

DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

回复内容:

最近在弄xunsearch全文检索技术,被他的自定义词库给搞晕了,碰到了几点疑惑,望有大神能给解答一下,感激不尽!!!

1.增加自定义词库后的奇怪现象.

我在数据库中有两条化合物名称的记录,分别是丁二酸和α酮戊二酸二甲酯。在没有加自定义词库的时候,我搜索丁二酸,两个化合物都会被搜出来,搜索α酮戊二酸二甲酯的时候,也会搜索出来两个化合物。然后我在自定义词库中添加了α酮戊二酸二甲酯,再搜索后,只会出现α酮戊二酸二甲酯这一个结果。但是,再往自定义词库中添加丁二酸后,进行搜索,结果两个化合物还是会出来。为什么会这样呢?为此,我还使用getQuery语句获取了查询词,结果是α酮戊二酸二甲酯的返回值是Xapain::Query(Zα酮戊二酸二甲酯:(pos=1)),丁二酸的返回值是Xapian::Query((丁二酸:(pos=1) SYNONYM(丁二:(pos=89) OR 二酸:(pos=90))))。最初我以为是同义词的问题,但是为什么α酮戊二酸二甲酯没有同义词,而丁二酸会产生同义词呢?最重要的是,当我用getAllSynonyms获取同义词列表时,显示的是空!!!求大神解答!

2.自定义词库中的TF、IDF值的作用

DF、IDF只影响最后的相关度评分,而xunsearch底层用的是Xapian,Xapian使用的是BM25算法计算相关度。式子中的IDF和TF是算法根据当前文档计算出来的,为什么还需要我们自定义。有人解释说是为了提高最后搜索的排名,能不能具体举例说明一下为什么会提高了(难道我们自定义TF和IDF之后,xunsearch会直接用我们自定义的TF、IDF计算相关度评分而不是自动从文档中计算?)

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Configuration du projet CakePHP Configuration du projet CakePHP Sep 10, 2024 pm 05:25 PM

Dans ce chapitre, nous comprendrons les variables d'environnement, la configuration générale, la configuration de la base de données et la configuration de la messagerie dans CakePHP.

Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Guide d'installation et de mise à niveau de PHP 8.4 pour Ubuntu et Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 apporte plusieurs nouvelles fonctionnalités, améliorations de sécurité et de performances avec une bonne quantité de dépréciations et de suppressions de fonctionnalités. Ce guide explique comment installer PHP 8.4 ou mettre à niveau vers PHP 8.4 sur Ubuntu, Debian ou leurs dérivés. Bien qu'il soit possible de compiler PHP à partir des sources, son installation à partir d'un référentiel APT comme expliqué ci-dessous est souvent plus rapide et plus sécurisée car ces référentiels fourniront les dernières corrections de bogues et mises à jour de sécurité à l'avenir.

Date et heure de CakePHP Date et heure de CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler avec la date et l'heure dans cakephp4, nous allons utiliser la classe FrozenTime disponible.

Téléchargement de fichiers CakePHP Téléchargement de fichiers CakePHP Sep 10, 2024 pm 05:27 PM

Pour travailler sur le téléchargement de fichiers, nous allons utiliser l'assistant de formulaire. Voici un exemple de téléchargement de fichiers.

Routage CakePHP Routage CakePHP Sep 10, 2024 pm 05:25 PM

Dans ce chapitre, nous allons apprendre les sujets suivants liés au routage ?

CakePHP travaillant avec la base de données CakePHP travaillant avec la base de données Sep 10, 2024 pm 05:25 PM

Travailler avec la base de données dans CakePHP est très simple. Nous comprendrons les opérations CRUD (Créer, Lire, Mettre à jour, Supprimer) dans ce chapitre.

Discuter de CakePHP Discuter de CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP est un framework open source pour PHP. Il vise à faciliter grandement le développement, le déploiement et la maintenance d'applications. CakePHP est basé sur une architecture de type MVC à la fois puissante et facile à appréhender. Modèles, vues et contrôleurs gu

CakePHP créant des validateurs CakePHP créant des validateurs Sep 10, 2024 pm 05:26 PM

Le validateur peut être créé en ajoutant les deux lignes suivantes dans le contrôleur.

See all articles