L'utilisation de l'outil de recherche léger Python Whoosh (partage de résumés)-Tutoriel Python-php.cn

Table des matières

Données

Champs

Ensuite, nous devons créer le fichier d'index. Nous utilisons le programme pour analyser d'abord le fichier poème.csv, le convertir en index et l'écrire dans le répertoire indexdir. Le code Python est le suivant :

Une fois l'index créé avec succès, nous l'utiliserons pour interroger.

Maison

développement back-end

Tutoriel Python

L'utilisation de l'outil de recherche léger Python Whoosh (partage de résumés)

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 26, 2022 pm 02:03 PM

python

Cet article vous apporte des connaissances pertinentes sur Python. Il présentera brièvement Whoosh, un outil de recherche léger en Python, et vous donnera l'exemple de code d'utilisation correspondant. Examinons-le ensemble, j'espère, utile à tout le monde.

L'utilisation de l'outil de recherche léger Python Whoosh (partage de résumés)

【Recommandation associée : Tutoriel vidéo Python3】

Cet article présentera brièvement Whoosh, un outil de recherche léger en Python, et donnera un exemple de code d'utilisation correspondant.

Introduction à Whoosh

Whoosh a été créé par Matt Chaput. Il a commencé comme un outil de service de recherche simple et rapide pour la documentation en ligne du progiciel d'animation 3D Houdini. Il est depuis lentement devenu un outil de solution de recherche mature et est devenu ouvert. source.

Whoosh est purement écrit en Python. C'est un outil de moteur de recherche flexible, pratique et léger. Il prend désormais en charge Python2 et 3. Ses avantages sont les suivants :

Whoosh est purement écrit en Python, mais il est très rapide. , seul l'environnement Python est requis, aucun compilateur n'est requis ;
L'algorithme de tri Okapi BM25F est utilisé par défaut et d'autres algorithmes de tri sont également pris en charge
Par rapport à d'autres moteurs de recherche, Whoosh créera des fichiers d'index plus petits
Whoosh The ; Le codage du fichier d'index doit être Unicode ;
Whoosh peut stocker n'importe quel objet Python.

Le site Web d'introduction officiel de Whoosh est : https://whoosh.readthedocs.io/en/latest/intro.html. Comparé aux outils de moteurs de recherche matures tels que ElasticSearch ou Solr, Whoosh est plus léger et plus simple à utiliser, et peut être envisagé pour une utilisation dans de petits projets de recherche.

Index et requête

Pour ceux qui connaissent ES, les deux aspects importants de la recherche sont le mappage et la requête, c'est-à-dire la construction d'index et la requête, derrière lesquelles se trouvent des algorithmes complexes de stockage d'index, d'analyse des requêtes et de tri. Si vous avez de l'expérience en ES, Whoosh est très facile à utiliser.

Selon la compréhension de l'auteur et la documentation officielle de Whoosh, l'utilisation introductive de Whoosh est principalement l'index et la requête. L'une des fonctionnalités puissantes d'un moteur de recherche est sa capacité à fournir une récupération de texte intégral, qui dépend d'algorithmes de tri, tels que BM25, et de la manière dont nous stockons les champs. Par conséquent, lorsque index est utilisé comme nom, il fait référence à l'index du champ, et lorsque index est utilisé comme verbe, il fait référence à l'établissement de l'index du champ. La requête utilisera l'algorithme de tri pour donner des résultats de recherche raisonnables basés sur les instructions que nous devons interroger.

Concernant l'utilisation de Whoosh, des instructions détaillées ont été données dans les documents officiels. L'auteur ne donne ici qu'un exemple simple pour illustrer comment Whoosh peut facilement améliorer notre expérience de recherche.

Exemple de code

Données

L'exemple de données de ce projet est poème.csv L'image suivante représente les dix premières lignes de l'ensemble de données :

Champs

Selon les caractéristiques de l'ensemble de données, nous créons quatre champs (champs) : titre, dynastie, poète, contenu. Le code créé est le suivant :

# -*- coding: utf-8 -*-
import os
from whoosh.index import create_in
from whoosh.fields import *
from jieba.analyse import ChineseAnalyzer
import json

# 创建schema, stored为True表示能够被检索
schema = Schema(title=TEXT(stored=True, analyzer=ChineseAnalyzer()),
                dynasty=ID(stored=True),
                poet=ID(stored=True),
                content=TEXT(stored=True, analyzer=ChineseAnalyzer())
                )

Copier après la connexion

Parmi eux, l'ID ne peut être qu'une valeur unitaire et ne peut pas être divisé en plusieurs mots. Il est souvent utilisé pour les chemins de fichiers, les URL, les dates et les classifications ; établir un index du texte et le stocker, prend en charge la recherche de mots ; l'analyseur sélectionne le segmenteur de mots chinois bégayant.

Créer le fichier d'index

Ensuite, nous devons créer le fichier d'index. Nous utilisons le programme pour analyser d'abord le fichier poème.csv, le convertir en index et l'écrire dans le répertoire indexdir. Le code Python est le suivant :

# 解析poem.csv文件
with open(&#39;poem.csv&#39;, &#39;r&#39;, encoding=&#39;utf-8&#39;) as f:
    texts = [_.strip().split(&#39;,&#39;) for _ in f.readlines() if len(_.strip().split(&#39;,&#39;)) == 4]

# 存储schema信息至indexdir目录
indexdir = &#39;indexdir/&#39;
if not os.path.exists(indexdir):
    os.mkdir(indexdir)
ix = create_in(indexdir, schema)

# 按照schema定义信息，增加需要建立索引的文档
writer = ix.writer()
for i in range(1, len(texts)):
    title, dynasty, poet, content = texts[i]
    writer.add_document(title=title, dynasty=dynasty, poet=poet, content=content)
writer.commit()

Copier après la connexion

Une fois l'index créé avec succès, le répertoire indexdir sera généré, qui contient les fichiers d'index pour chaque champ des données poet.csv ci-dessus.

Requête

Une fois l'index créé avec succès, nous l'utiliserons pour interroger.

Par exemple, si nous voulons interroger les versets contenant

dans le contenu, nous pouvons saisir le code suivant :

# 创建一个检索器
searcher = ix.searcher()

# 检索content中出现&#39;明月&#39;的文档
results = searcher.find("content", "明月")
print(&#39;一共发现%d份文档。&#39; % len(results))
for i in range(min(10, len(results))):
    print(json.dumps(results[i].fields(), ensure_ascii=False))

Copier après la connexion

明月Le résultat de sortie est le suivant :

Un total de 44 documents trouvés.
Les 10 premiers documents sont les suivants :
{"content": "Il y a un clair de lune brillant devant le lit, et on soupçonne qu'il y a du givre sur le sol. Je lève les yeux vers la lune brillante et baisse la tête pour réfléchir à propos de ma ville natale.", "dynasty": "Dynastie Tang", "poet": "Li Bai ", "title": "Pensées nocturnes tranquilles"}
{"content": "L'herbe au bord, l'herbe sur Au bord, le vieux soldat arrive. La neige est claire au sud et au nord de la montagne, et la lune brille sur des milliers de kilomètres, et la lune brille ", " dynastie " : " Dynastie Tang ", " poète. ": "Dai Shulun", "title": "Tiao Xiaoling·Biancao"}
{"content": "Assis seul dans les bambous isolés, jouant du piano et rugissant dans la forêt profonde. Les gens ne savent pas que le brillant. La lune brille sur les gens. Des milliers de kilomètres de vent d'automne ont légèrement essuyé les vêtements des invités, mais il y a encore de la poussière de la capitale de l'empereur }
{"content": "La lune brillante de la dynastie Qin et le col de la dynastie Han. , les gens qui ont marché des milliers de kilomètres ne sont pas revenus. Mais les généraux volants de Dragon City sont là, et ils n'apprendront pas à Hu Ma à traverser la montagne Yin.", "dynastie": "Dynastie Tang", "poète" : "Wang Changling", "title": "Deux poèmes hors de la forteresse·Un"}
{"content": "Entre les eaux de Jingkou Guazhou, Zhongshan n'est séparé que par plusieurs montagnes. La brise printanière est verte au sud rive de la rivière. Quand la lune brillante brillera-t-elle sur moi ? ", "dynasty": "Song Dynasty", "poet": "Wang Anshi", "title": "Boaring Guazhou"}
{"content": " Regardez autour de vous les montagnes et l'eau, et appuyez-vous sur la balustrade sur dix milles pour sentir le lotus. La brise et la lune brillante sont sans surveillance, et la tour sud est toujours froide "Les montagnes vertes sont pâles et l'eau est faible. loin, et l'herbe au sud du fleuve Yangtze ne s'est pas fanée après l'automne. Dans la nuit au clair de lune des Vingt-Quatre Ponts, où la beauté peut-elle enseigner la flûte ?", "dynastie" : "Dynastie Tang", " poet": "Du Mu", "title" : "Envoyer au juge Han Chuo de Yangzhou"}
{"content": "L'air de rosée est froid et la lumière se rassemble, et le soleil brille sous les singes Chuqiu. chantent dans les arbres Dongting, et les gens sont dans des bateaux de magnolia. Il y a une lune brillante à Guangze et des courants turbulents dans la montagne Cangshan. Je ne te vois pas, je me sens triste pour l'automne la nuit ", " dynastie " : " Tang. Dynasty", "poet": "Ma Dai", "title": "Un des trois poèmes nostalgiques de Chujiang"}
{"content": " La lune brillante se lève sur la mer et le monde est en ce moment amoureux. se sentent désolés l'un pour l'autre dans la nuit lointaine, mais les bougies sont pleines de pitié et ils sentent la rosée dans leurs mains ", " dynastie " : " Dynastie Tang " , " poète " : " Zhang Jiuling ", " titre ". : "Regardant la Lune et Huaiyuan / Regardant la Lune et nostalgique du passé"}

【Recommandations associées :

Tutoriel vidéo Python3

】

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7549

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

PHP et Python: exemples de code et comparaison Apr 15, 2025 am 12:07 AM

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Comment est la prise en charge du GPU pour Pytorch sur Centos Apr 14, 2025 pm 06:48 PM

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Python vs JavaScript: communauté, bibliothèques et ressources Apr 15, 2025 am 12:16 AM

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Miniopen Centos Compatibilité Apr 14, 2025 pm 05:45 PM

Minio Object Storage: Déploiement haute performance dans le système Centos System Minio est un système de stockage d'objets distribué haute performance développé sur la base du langage Go, compatible avec Amazons3. Il prend en charge une variété de langages clients, notamment Java, Python, JavaScript et GO. Cet article introduira brièvement l'installation et la compatibilité de Minio sur les systèmes CentOS. Compatibilité de la version CentOS Minio a été vérifiée sur plusieurs versions CentOS, y compris, mais sans s'y limiter: CentOS7.9: fournit un guide d'installation complet couvrant la configuration du cluster, la préparation de l'environnement, les paramètres de fichiers de configuration, le partitionnement du disque et la mini

Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Apr 14, 2025 pm 06:36 PM

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

Comment choisir la version Pytorch sur Centos Apr 14, 2025 pm 06:51 PM

Lors de l'installation de Pytorch sur le système CentOS, vous devez sélectionner soigneusement la version appropriée et considérer les facteurs clés suivants: 1. Compatibilité de l'environnement du système: Système d'exploitation: Il est recommandé d'utiliser CentOS7 ou plus. CUDA et CUDNN: La version Pytorch et la version CUDA sont étroitement liées. Par exemple, Pytorch1.9.0 nécessite CUDA11.1, tandis que Pytorch2.0.1 nécessite CUDA11.3. La version CUDNN doit également correspondre à la version CUDA. Avant de sélectionner la version Pytorch, assurez-vous de confirmer que des versions compatibles CUDA et CUDNN ont été installées. Version Python: branche officielle de Pytorch

Comment installer nginx dans Centos Apr 14, 2025 pm 08:06 PM

CENTOS L'installation de Nginx nécessite de suivre les étapes suivantes: Installation de dépendances telles que les outils de développement, le devet PCRE et l'OpenSSL. Téléchargez le package de code source Nginx, dézippez-le et compilez-le et installez-le, et spécifiez le chemin d'installation AS / USR / LOCAL / NGINX. Créez des utilisateurs et des groupes d'utilisateurs de Nginx et définissez les autorisations. Modifiez le fichier de configuration nginx.conf et configurez le port d'écoute et le nom de domaine / adresse IP. Démarrez le service Nginx. Les erreurs communes doivent être prêtées à prêter attention, telles que les problèmes de dépendance, les conflits de port et les erreurs de fichiers de configuration. L'optimisation des performances doit être ajustée en fonction de la situation spécifique, comme l'activation du cache et l'ajustement du nombre de processus de travail.

See all articles