Maison interface Web js tutoriel Classement de recherche en texte intégral PostgreSQL par position

Classement de recherche en texte intégral PostgreSQL par position

Dec 13, 2024 pm 01:08 PM

PostgreSQL Full Text Search Rank by Position

Récemment, j'ai rencontré un problème avec la recherche en texte intégral. J'utilise cette fonctionnalité dans ma saisie de recherche, où le backend envoie des indices de correspondances possibles au fur et à mesure que vous tapez. La base de données principale est PostgreSQL. J'avais besoin que les indices soient classés selon la position du terme recherché dans le texte.

Donc, si vous recherchez le titre "Star Wars", vous obtiendrez le message "Star Wars" en premier au lieu de "Comment Star Wars 7-9 a changé le monde de Star Wars (un documentaire amusant sur Star Wars)" qui peut avoir classement plus élevé puisque le terme est présent 3 fois.

Recherche en texte intégral dans PostgreSQL

La recherche en texte intégral dans PostgreSQL peut être réalisée assez facilement. Il existe deux outils principaux à utiliser :

  • tsvector - représente un document consultable.
  • tsquery - représente la requête de recherche à effectuer sur un document.

Disons que nous souhaitons rechercher les titres de nos articles de blog. Pour les rendre consultables, nous pouvons utiliser la requête suivante :

SELECT 
id, 
title 
FROM blogposts
WHERE to_tsquery('JavaScript') @@ to_tsvector(posts.title);
Copier après la connexion
Copier après la connexion

Dans ce cas, nous convertissons dynamiquement les titres des articles en tsvecteur à chaque recherche. Cependant, cette transformation prend du temps. Une meilleure approche consiste à effectuer cette transformation à l'avance dans la base de données et à la stocker également sous forme d'index pour les titres pour une recherche plus rapide.

Créons une nouvelle colonne de vecteurs de titres et indexons également cette nouvelle colonne :

ALTER TABLE blogposts ADD COLUMN search_vector tsvector;
UPDATE blogposts SET search_vector = (to_tsvector(posts.title));
CREATE INDEX titles_fts_idx ON blogposts USING gin(search_vector);
Copier après la connexion
Copier après la connexion

Essayez maintenant de rechercher le terme "JavaScript"

SELECT 
id, 
title
FROM blogposts
WHERE to_tsquery('JavaScript') @@ search_vector;
Copier après la connexion
Copier après la connexion

Vous pouvez également créer des index à partir des vecteurs ts directement sur la colonne des titres comme ceci :

CREATE INDEX titles_fts_idx ON blogposts USING GIN (to_tsvector(posts.title));
Copier après la connexion

et utilisez la recherche comme ceci :

SELECT 
id, 
title
FROM blogposts
WHERE to_tsquery('JavaScript') @@ posts.title;
Copier après la connexion

Désormais, la recherche en texte intégral sera incroyablement rapide, s'effectuant en quelques millisecondes.

Classement des résultats

PostgreSQL fournit la fonctionnalité ts_rank, qui vous permet d'évaluer les résultats de recherche et de les classer en fonction de leur classement. PostgreSQL prend en charge les options de classement suivantes :

  • 0 (valeur par défaut) ignore la longueur du document
  • 1 divise le rang par 1 le logarithme de la longueur du document
  • 2 divise le rang par la longueur du document
  • 4 divise le rang par la distance harmonique moyenne entre les étendues (ceci n'est implémenté que par ts_rank_cd)
  • 8 divise le rang par le nombre de mots uniques dans le document
  • 16 divise le rang par 1 le logarithme du nombre de mots uniques dans le document
  • 32 divise le rang à lui seul 1

Vous pouvez utiliser le ts_rank comme ceci :

SELECT
    ...
ts_rank(search_vector, to_tsquery('JavaScript'), 0) as rank_title
    ...
ORDER BY rank_title DESC NULLS LAST
Copier après la connexion

Cependant, il n'existe pas d'option de classement intégrée basée sur la position du terme de recherche dans la chaîne (c'est-à-dire la colonne de titre).

POSITION à la rescousse

Heureusement, il existe la fonction POSITION dans PostgreSQL. La fonction PostgreSQL POSITION est utilisée pour trouver l'emplacement d'une sous-chaîne dans une chaîne donnée. Dans notre cas nous pouvons l'utiliser comme ça

SELECT 
id, 
title 
FROM blogposts
WHERE to_tsquery('JavaScript') @@ to_tsvector(posts.title);
Copier après la connexion
Copier après la connexion

ts_rank utilise l'entier de normalisation 2 car 2 divise le classement par la longueur du document
Le nombre magique 0,0001 consiste à éviter de diviser par 0 car la fonction POSTION compte à partir de 1 et non de 0 et renvoie 0 si la chaîne n'est pas trouvée.

Le code final peut ressembler à ceci :

ALTER TABLE blogposts ADD COLUMN search_vector tsvector;
UPDATE blogposts SET search_vector = (to_tsvector(posts.title));
CREATE INDEX titles_fts_idx ON blogposts USING gin(search_vector);
Copier après la connexion
Copier après la connexion

Rechercher plus de termes

Une mise en garde doit être mentionnée si vous recherchez plusieurs termes à la fois (comme JavaScript et TypeScript).

Les arguments de la fonction to_tsquery peuvent être utilisés avec une grande flexibilité, y compris les opérateurs logiques, etc. La fonction POSITION, par contre, est "juste" une sous-chaîne dans une chaîne.

Exemple du monde réel

Voici mon exemple d'un point de terminaison du monde réel dans l'application Web SvelteKit qui utilise la bibliothèque npm postgres (sql) :

SELECT 
id, 
title
FROM blogposts
WHERE to_tsquery('JavaScript') @@ search_vector;
Copier après la connexion
Copier après la connexion

Voici les liens vers la documentatio en la matière :

  • https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-PARSING-QUERIES https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-PARSING-DOCUMENTS
  • https://www.postgresql.org/docs/current/textsearch-controls.html#TEXTSEARCH-RANKING
  • https://www.postgresql.org/docs/9.1/functions-string.html

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Que dois-je faire si je rencontre l'impression de code brouillé pour les reçus en papier thermique frontal? Que dois-je faire si je rencontre l'impression de code brouillé pour les reçus en papier thermique frontal? Apr 04, 2025 pm 02:42 PM

Des questions et des solutions fréquemment posées pour l'impression de billets thermiques frontaux pour le développement frontal, l'impression de billets est une exigence commune. Cependant, de nombreux développeurs mettent en œuvre ...

Démystifier javascript: ce qu'il fait et pourquoi c'est important Démystifier javascript: ce qu'il fait et pourquoi c'est important Apr 09, 2025 am 12:07 AM

JavaScript est la pierre angulaire du développement Web moderne, et ses principales fonctions incluent la programmation axée sur les événements, la génération de contenu dynamique et la programmation asynchrone. 1) La programmation axée sur les événements permet aux pages Web de changer dynamiquement en fonction des opérations utilisateur. 2) La génération de contenu dynamique permet d'ajuster le contenu de la page en fonction des conditions. 3) La programmation asynchrone garantit que l'interface utilisateur n'est pas bloquée. JavaScript est largement utilisé dans l'interaction Web, les applications à une page et le développement côté serveur, améliorant considérablement la flexibilité de l'expérience utilisateur et du développement multiplateforme.

Qui est payé plus de python ou de javascript? Qui est payé plus de python ou de javascript? Apr 04, 2025 am 12:09 AM

Il n'y a pas de salaire absolu pour les développeurs Python et JavaScript, selon les compétences et les besoins de l'industrie. 1. Python peut être davantage payé en science des données et en apprentissage automatique. 2. JavaScript a une grande demande dans le développement frontal et complet, et son salaire est également considérable. 3. Les facteurs d'influence comprennent l'expérience, la localisation géographique, la taille de l'entreprise et les compétences spécifiques.

Comment fusionner les éléments du tableau avec le même ID dans un seul objet en utilisant JavaScript? Comment fusionner les éléments du tableau avec le même ID dans un seul objet en utilisant JavaScript? Apr 04, 2025 pm 05:09 PM

Comment fusionner les éléments du tableau avec le même ID dans un seul objet en JavaScript? Lors du traitement des données, nous rencontrons souvent la nécessité d'avoir le même ID ...

JavaScript est-il difficile à apprendre? JavaScript est-il difficile à apprendre? Apr 03, 2025 am 12:20 AM

Apprendre JavaScript n'est pas difficile, mais c'est difficile. 1) Comprendre les concepts de base tels que les variables, les types de données, les fonctions, etc. 2) Master la programmation asynchrone et les implémenter via des boucles d'événements. 3) Utilisez les opérations DOM et promettez de gérer les demandes asynchrones. 4) Évitez les erreurs courantes et utilisez des techniques de débogage. 5) Optimiser les performances et suivre les meilleures pratiques.

Comment réaliser des effets de défilement de parallaxe et d'animation des éléments, comme le site officiel de Shiseido?
ou:
Comment pouvons-nous réaliser l'effet d'animation accompagné d'un défilement de page comme le site officiel de Shiseido? Comment réaliser des effets de défilement de parallaxe et d'animation des éléments, comme le site officiel de Shiseido? ou: Comment pouvons-nous réaliser l'effet d'animation accompagné d'un défilement de page comme le site officiel de Shiseido? Apr 04, 2025 pm 05:36 PM

La discussion sur la réalisation des effets de défilement de parallaxe et d'animation des éléments dans cet article explorera comment réaliser le site officiel de Shiseido (https://www.shiseido.co.jp/sb/wonderland/) ...

L'évolution de JavaScript: tendances actuelles et perspectives d'avenir L'évolution de JavaScript: tendances actuelles et perspectives d'avenir Apr 10, 2025 am 09:33 AM

Les dernières tendances de JavaScript incluent la montée en puissance de TypeScript, la popularité des frameworks et bibliothèques modernes et l'application de WebAssembly. Les prospects futurs couvrent des systèmes de type plus puissants, le développement du JavaScript côté serveur, l'expansion de l'intelligence artificielle et de l'apprentissage automatique, et le potentiel de l'informatique IoT et Edge.

La différence dans Console.Log de sortie Résultat: Pourquoi les deux appels sont-ils différents? La différence dans Console.Log de sortie Résultat: Pourquoi les deux appels sont-ils différents? Apr 04, 2025 pm 05:12 PM

Discussion approfondie des causes profondes de la différence de sortie Console.log. Cet article analysera les différences dans les résultats de sortie de la fonction Console.log dans un morceau de code et expliquera les raisons derrière. � ...

See all articles