Jadual Kandungan
Pengenalan Whoosh
Menurut pemahaman pengarang dan dokumentasi rasmi Whoosh, penggunaan pengenalan Whoosh adalah terutamanya indeks dan pertanyaan. Salah satu ciri berkuasa enjin carian ialah keupayaannya untuk menyediakan perolehan semula teks penuh, yang bergantung pada algoritma pengisihan, seperti BM25, dan cara kami menyimpan medan. Oleh itu, apabila indeks digunakan sebagai kata nama, ia merujuk kepada indeks medan, dan apabila indeks digunakan sebagai kata kerja, ia merujuk kepada penubuhan indeks medan. Pertanyaan akan menggunakan algoritma pengisihan untuk memberikan hasil carian yang munasabah berdasarkan pernyataan yang kami perlukan untuk pertanyaan.
Data sampel untuk projek ini ialah puisi.csv Gambar berikut ialah sepuluh baris pertama set data:
Sebagai contoh, jika kita ingin menanyakan ayat-ayat yang mengandungi
Rumah pembangunan bahagian belakang Tutorial Python Penggunaan alat carian ringan Python Whoosh (perkongsian ringkasan)

Penggunaan alat carian ringan Python Whoosh (perkongsian ringkasan)

Jul 26, 2022 pm 02:03 PM
python

Artikel ini membawa anda pengetahuan yang berkaitan tentang Python Ia akan memperkenalkan secara ringkas Whoosh, alat carian ringan dalam Python, dan memberikan kod contoh penggunaan yang sepadan, seperti berikut Mari kita lihat, saya harap ia akan. berguna kepada semua orang.

Penggunaan alat carian ringan Python Whoosh (perkongsian ringkasan)

[Cadangan berkaitan: Tutorial video Python3 ]

Artikel ini akan memperkenalkan Whoosh, alat carian ringan dalam Python Dan berikan kod contoh penggunaan yang sepadan.

Pengenalan Whoosh

Whoosh telah dicipta oleh Matt Chaput Ia bermula sebagai alat perkhidmatan carian yang mudah dan pantas untuk dokumentasi dalam talian bagi pakej perisian animasi 3D Houdini, dan kemudian perlahan-lahan menjadi The matang. alat penyelesaian carian telah menjadi sumber terbuka.

Whoosh ditulis dalam Python Ia adalah alat enjin carian yang fleksibel, mudah dan ringan Ia kini menyokong kedua-dua Python2 dan 3. Kelebihannya adalah seperti berikut:

  • Whoosh adalah. semata-mata ditulis dalam Python, tetapi ia hanya memerlukan persekitaran Python dan tidak memerlukan pengkompil
  • menggunakan algoritma pengisihan Okapi BM25F secara lalai dan juga menyokong algoritma pengisihan lain; > adalah serupa Berbanding dengan enjin carian lain, Whoosh akan mencipta fail indeks yang lebih kecil;
  • Pengekodan fail indeks dalam Whoosh mestilah unicode;
  • Tapak web pengenalan rasmi Whoosh ialah: https://whoosh.readthedocs.io/en/latest/intro.html. Berbanding dengan alatan enjin carian matang seperti ElasticSearch atau Solr, Whoosh adalah lebih ringan dan mudah untuk dikendalikan, dan boleh dipertimbangkan untuk digunakan dalam projek carian kecil.
  • Indeks & pertanyaan

Bagi mereka yang biasa dengan ES, dua aspek penting carian ialah pemetaan dan pertanyaan, iaitu pembinaan indeks dan pertanyaan Di sebalik tabir ialah storan indeks yang kompleks, Penghuraian pertanyaan dan algoritma pengisihan, dsb. Jika anda mempunyai pengalaman dalam ES, maka Whoosh sangat mudah untuk dimulakan.

Mengenai penggunaan Whoosh, arahan terperinci telah diberikan dalam dokumen rasmi Penulis hanya memberikan contoh mudah di sini untuk menggambarkan bagaimana Whoosh boleh meningkatkan pengalaman carian kami dengan mudah.

Kod sampel

Data

Data sampel untuk projek ini ialah puisi.csv Gambar berikut ialah sepuluh baris pertama set data:

Bidang

Mengikut ciri set data, kami mencipta empat medan (medan): tajuk, dinasti, penyair, kandungan. Kod yang dibuat adalah seperti berikut:

Antaranya, ID hanya boleh menjadi nilai unit dan tidak boleh dibahagikan kepada beberapa perkataan Ia sering digunakan untuk laluan fail, URL, tarikh dan klasifikasi

Fail TEKS Kandungan teks diindeks dan disimpan, dan carian perbendaharaan kata disokong;
# -*- coding: utf-8 -*-
import os
from whoosh.index import create_in
from whoosh.fields import *
from jieba.analyse import ChineseAnalyzer
import json

# 创建schema, stored为True表示能够被检索
schema = Schema(title=TEXT(stored=True, analyzer=ChineseAnalyzer()),
                dynasty=ID(stored=True),
                poet=ID(stored=True),
                content=TEXT(stored=True, analyzer=ChineseAnalyzer())
                )
Salin selepas log masuk

Buat fail indeks

Seterusnya, kita perlu mencipta fail indeks. Kami menggunakan atur cara untuk menghuraikan fail poem.csv dahulu, menukarnya kepada indeks dan menulisnya ke direktori indexdir. Kod Python adalah seperti berikut:

Selepas indeks berjaya dibuat, direktori indexdir akan dijana, yang mengandungi fail indeks untuk setiap medan data poem.csv di atas.

Pertanyaan
# 解析poem.csv文件
with open('poem.csv', 'r', encoding='utf-8') as f:
    texts = [_.strip().split(',') for _ in f.readlines() if len(_.strip().split(',')) == 4]

# 存储schema信息至indexdir目录
indexdir = 'indexdir/'
if not os.path.exists(indexdir):
    os.mkdir(indexdir)
ix = create_in(indexdir, schema)

# 按照schema定义信息,增加需要建立索引的文档
writer = ix.writer()
for i in range(1, len(texts)):
    title, dynasty, poet, content = texts[i]
    writer.add_document(title=title, dynasty=dynasty, poet=poet, content=content)
writer.commit()
Salin selepas log masuk

Selepas indeks berjaya dibuat, kami akan menggunakannya untuk membuat pertanyaan.

Sebagai contoh, jika kita ingin menanyakan ayat-ayat yang mengandungi

dalam kandungan, kita boleh memasukkan kod berikut:

Hasil output adalah seperti berikut: 明月

Sebanyak 44 dokumen ditemui.
10 dokumen pertama adalah seperti berikut:
{"content": "Terdapat cahaya bulan yang terang di hadapan katil, disyaki terdapat fros di atas tanah. Tengok ke atas pada bulan yang terang dan tundukkan kepala anda untuk berfikir tentang kampung halaman anda.", "dinasti": "Dinasti Tang", "penyair ": "Li Bai ", "tajuk": "Fikiran Malam Senyap"}
{"content": "Rumput di tepi, rumput di tepi, askar tua datang salji di selatan dan utara gunung, dan bulan cerah untuk beribu-ribu batu ", "dinasti": "Dinasti Tang", "penyair": "Dai Shulun", "title": "Tiao Xiao Ling·Bian Cao"}
{"content": "Duduk bersendirian di dalam buluh yang sunyi di dalam, orang di dalam hutan tidak tahu bahawa bulan yang terang datang shine. content": "Bulan terang bersinar di Sungai Han, dan angin musim luruh membasuh pakaian tetamu, tetapi masih ada debu ibu kota empayar.", "dinasti": "Dinasti Ming", "penyair ": "Bian Gong", "title": "Hadiah berat kepada Wu Guobin"}
{"content": "Bulan terang Dinasti Qin dan pas Dinasti Han, dan orang-orang yang berarak beribu-ribu mil belum kembali tetapi jeneral terbang Kota Naga ada di sini, dan mereka tidak akan mengajar Hu Ma untuk menyeberangi Pergunungan Yin.", "dinasti": "Dinasti Tang", "penyair": "Wang Changling", " title": "Dua puisi keluar dari kubu·Satu"}
{"content": "Jingkou Guazhou dipisahkan oleh air, dan Zhongshan tepat di seberangnya Angin musim bunga kembali menghijau di tebing selatan sungai. Bilakah bulan yang cerah menyinari saya lagi": "Melihat sekeliling, ada gunung dan air, dan keharuman bunga teratai adalah sepuluh batu jauhnya. "dynasty": "Dinasti Song", "poet": "Huang Tingjian", "title ": "Ezhou Nanlou Calligraphy"}
{"content": "Gunung hijau samar dan airnya jauh, dan rumput di selatan Sungai Yangtze tidak layu pada akhir musim luruh Pada malam bulan di Jambatan Dua Puluh Empat, di manakah keindahan itu boleh mengajar saya bermain seruling ", "dinasti ": "Dinasti Tang"? , "poet": "Du Mu", "title": "Kepada Hakim Han Chuo dari Yangzhou"}
{"content": "Udara embun sejuk dan cahaya sedang berkumpul, dan beruk menangis di dalam Dongting dari Chuqiu di bawah cahaya matahari, orang-orang di dalam bot Mulan bersinar di Guangze, dan arus bergelora di Pergunungan Cangshan membuat saya sedih pada waktu malam ": "Satu daripada Tiga Puisi Nostalgia di Sungai Chu "}
{"content": "Bulan terang bersinar di laut, dan kita pada saat ini di dunia Kekasih mengeluh tentang malam yang jauh, tetapi mereka bangun dengan cinta pada waktu petang apabila lilin dipadamkan. dan cahayanya penuh. Ia terlalu bagus untuk diberikan ", "dinasti": "Dinasti Tang", "penyair": "Zhang Jiuling", "tajuk": "Melihat bulan dan menghargai masa lalu"}

【Cadangan berkaitan:
Tutorial video Python3

Atas ialah kandungan terperinci Penggunaan alat carian ringan Python Whoosh (perkongsian ringkasan). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Apakah fungsi jumlah bahasa C? Apakah fungsi jumlah bahasa C? Apr 03, 2025 pm 02:21 PM

Tiada fungsi jumlah terbina dalam dalam bahasa C, jadi ia perlu ditulis sendiri. Jumlah boleh dicapai dengan melintasi unsur -unsur array dan terkumpul: Versi gelung: SUM dikira menggunakan panjang gelung dan panjang. Versi Pointer: Gunakan petunjuk untuk menunjuk kepada unsur-unsur array, dan penjumlahan yang cekap dicapai melalui penunjuk diri sendiri. Secara dinamik memperuntukkan versi Array: Perlawanan secara dinamik dan uruskan memori sendiri, memastikan memori yang diperuntukkan dibebaskan untuk mengelakkan kebocoran ingatan.

Siapa yang dibayar lebih banyak Python atau JavaScript? Siapa yang dibayar lebih banyak Python atau JavaScript? Apr 04, 2025 am 12:09 AM

Tidak ada gaji mutlak untuk pemaju Python dan JavaScript, bergantung kepada kemahiran dan keperluan industri. 1. Python boleh dibayar lebih banyak dalam sains data dan pembelajaran mesin. 2. JavaScript mempunyai permintaan yang besar dalam perkembangan depan dan stack penuh, dan gajinya juga cukup besar. 3. Faktor mempengaruhi termasuk pengalaman, lokasi geografi, saiz syarikat dan kemahiran khusus.

Adakah distinctidistinguish berkaitan? Adakah distinctidistinguish berkaitan? Apr 03, 2025 pm 10:30 PM

Walaupun berbeza dan berbeza berkaitan dengan perbezaan, ia digunakan secara berbeza: berbeza (kata sifat) menggambarkan keunikan perkara itu sendiri dan digunakan untuk menekankan perbezaan antara perkara; Berbeza (kata kerja) mewakili tingkah laku atau keupayaan perbezaan, dan digunakan untuk menggambarkan proses diskriminasi. Dalam pengaturcaraan, berbeza sering digunakan untuk mewakili keunikan unsur -unsur dalam koleksi, seperti operasi deduplikasi; Berbeza dicerminkan dalam reka bentuk algoritma atau fungsi, seperti membezakan ganjil dan bahkan nombor. Apabila mengoptimumkan, operasi yang berbeza harus memilih algoritma dan struktur data yang sesuai, sementara operasi yang berbeza harus mengoptimumkan perbezaan antara kecekapan logik dan memberi perhatian untuk menulis kod yang jelas dan mudah dibaca.

Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Adakah pengeluaran halaman H5 memerlukan penyelenggaraan berterusan? Apr 05, 2025 pm 11:27 PM

Halaman H5 perlu dikekalkan secara berterusan, kerana faktor -faktor seperti kelemahan kod, keserasian pelayar, pengoptimuman prestasi, kemas kini keselamatan dan peningkatan pengalaman pengguna. Kaedah penyelenggaraan yang berkesan termasuk mewujudkan sistem ujian lengkap, menggunakan alat kawalan versi, kerap memantau prestasi halaman, mengumpul maklum balas pengguna dan merumuskan pelan penyelenggaraan.

Bagaimana memahami! X dalam c? Bagaimana memahami! X dalam c? Apr 03, 2025 pm 02:33 PM

! X Memahami! X adalah bukan operator logik dalam bahasa C. Ia booleans nilai x, iaitu, perubahan benar kepada perubahan palsu, palsu kepada benar. Tetapi sedar bahawa kebenaran dan kepalsuan dalam C diwakili oleh nilai berangka dan bukannya jenis Boolean, bukan sifar dianggap sebagai benar, dan hanya 0 dianggap sebagai palsu. Oleh itu ,! X memperkatakan nombor negatif sama seperti nombor positif dan dianggap benar.

Apakah jumlah maksud dalam bahasa C? Apakah jumlah maksud dalam bahasa C? Apr 03, 2025 pm 02:36 PM

Tiada fungsi jumlah terbina dalam dalam C untuk jumlah, tetapi ia boleh dilaksanakan dengan: menggunakan gelung untuk mengumpul unsur-unsur satu demi satu; menggunakan penunjuk untuk mengakses dan mengumpul unsur -unsur satu demi satu; Untuk jumlah data yang besar, pertimbangkan pengiraan selari.

Bagaimana untuk mendapatkan data aplikasi masa nyata dan data penonton di halaman kerja 58.com? Bagaimana untuk mendapatkan data aplikasi masa nyata dan data penonton di halaman kerja 58.com? Apr 05, 2025 am 08:06 AM

Bagaimana untuk mendapatkan data dinamik 58.com halaman kerja semasa merangkak? Semasa merangkak halaman kerja 58.com menggunakan alat crawler, anda mungkin menghadapi ...

Apakah sebab mengapa PS terus menunjukkan pemuatan? Apakah sebab mengapa PS terus menunjukkan pemuatan? Apr 06, 2025 pm 06:39 PM

PS "Memuatkan" Masalah disebabkan oleh akses sumber atau masalah pemprosesan: Kelajuan bacaan cakera keras adalah perlahan atau buruk: Gunakan CrystaldiskInfo untuk memeriksa kesihatan cakera keras dan menggantikan cakera keras yang bermasalah. Memori yang tidak mencukupi: Meningkatkan memori untuk memenuhi keperluan PS untuk imej resolusi tinggi dan pemprosesan lapisan kompleks. Pemandu kad grafik sudah lapuk atau rosak: Kemas kini pemandu untuk mengoptimumkan komunikasi antara PS dan kad grafik. Laluan fail terlalu panjang atau nama fail mempunyai aksara khas: Gunakan laluan pendek dan elakkan aksara khas. Masalah PS sendiri: Pasang semula atau membaiki pemasang PS.

See all articles