首页 后端开发 Golang Bleve:如何构建一个快速的搜索引擎?

Bleve:如何构建一个快速的搜索引擎?

Jan 03, 2025 am 04:23 AM

Bleve: How to build a rocket-fast search engine?

Go/Golang 是我最喜欢的语言之一;我喜欢极简主义和它的干净,它的语法非常紧凑,并且努力让事情变得简单(我是 KISS 原则的忠实粉丝)。

我最近面临的主要挑战之一是构建一个快速的搜索引擎。当然还有 SOLR 和 ElasticSearch 等选项;两者都工作得很好并且具有高度可扩展性,但是,我需要简化搜索,使其更快、更容易部署,几乎没有依赖项。

我需要进行足够的优化才能快速返回结果,以便可以对它们进行重新排名。虽然 C/Rust 可能很适合这个,但我更看重开发速度和生产力。我认为 Golang 是两全其美的。

在本文中,我将通过一个简单的示例来介绍如何使用 Go 构建自己的搜索引擎,你会惊讶地发现:它并没有您想象的那么复杂。

Golang:Python 的增强版

我不知道为什么,但 Golang 在某种程度上感觉像 Python。语法很容易掌握,也许是因为到处都没有分号和括号,或者是没有丑陋的 try-catch 语句。也许这是很棒的 Go 格式化程序,我不知道。

无论如何,由于 Golang 生成一个独立的二进制文件,因此部署到任何生产服务器都非常容易。您只需“构建”并交换可执行文件即可。

这正是我所需要的。

你有布莱夫吗?

不,这不是打字错误吗? Bleve 是一个功能强大、易于使用且非常灵活的 Golang 搜索库。

作为 Go 开发人员,您通常会像躲避瘟疫一样避免使用 3rd 方包;有时使用第三方软件包是有意义的。 Bleve 速度快、设计精良,并提供足够的价值来证明使用它的合理性。

此外,这就是我“Bleve”的原因:

  • 独立,Golang 的一大优点是单一二进制文件,所以我想保持这种感觉,不需要外部数据库或服务来存储和查询文档。 Bleve 与 Sqlite 类似,在内存中运行并写入磁盘。

  • 易于扩展。由于它只是 Go 代码,因此我可以根据需要轻松调整库或在我的代码库中扩展它。

  • 快速:1000 万个文档的搜索结果只需 50-100 毫秒,其中包括过滤。

  • 分面:如果没有一定程度的分面支持,您就无法构建现代搜索引擎。 Bleve 完全支持常见的构面类型:例如范围或简单类别计数。

  • 快速索引:Bleve 比 SOLR 稍慢。 SOLR 可以在 30 分钟内索引 1000 万个文档,而 Bleve 需要一个多小时,但是一个小时左右仍然相当不错,速度足以满足我的需求。

  • 良好的质量结果。 Bleve 在关键字结果方面表现出色,而且一些语义类型搜索在 Bleve 中也非常有效。

  • 快速启动:如果您需要重新启动或部署更新,只需几毫秒即可重新启动 Bleve。在内存中重建索引时不会阻塞读取,因此重新启动后几毫秒内即可搜索索引,不会出现中断。

设置索引?

在 Bleve 中,“索引”可以被视为数据库表或集合(NoSQL)。与常规 SQL 表不同,您不需要指定每一列,基本上可以在大多数用例中使用默认架构。

要初始化 Bleve 索引,您可以执行以下操作:

mappings := bleve.NewIndexMapping()
index, err = bleve.NewUsing("/some/path/index.bleve", mappings, "scorch", "scorch", nil)
if err != nil {
    log.Fatal(err)
}
登录后复制
登录后复制

Bleve 支持几种不同的索引类型,但经过多次摆弄后我发现“scorch”索引类型可以为您提供最佳性能。如果您不传入最后 3 个参数,Bleve 将默认为 BoltDB。

添加文档

向 Bleve 添加文档非常简单。您基本上可以在索引中存储任何类型的结构:

type Book struct {
    ID    int    `json:"id"`
    Name  string `json:"name"`
    Genre string `json:"genre"`
}

b := Book{
    ID:    1234,
    Name:  "Some creative title",
    Genre: "Young Adult",
}
idStr := fmt.Sprintf("%d", b.ID)
// index(string, interface{})
index.index(idStr, b)
登录后复制
登录后复制

如果您要索引大量文档,最好使用批处理:

// You would also want to check if the batch exists already
// - so that you don't recreate it.
batch := index.NewBatch()
if batch.Size() >= 1000 {
    err := index.Batch(batch)
    if err != nil {
        // failed, try again or log etc...
    }
    batch = index.NewBatch()
} else {
    batch.index(idStr, b)
}
登录后复制
登录后复制

正如您所注意到的,使用“index.NewBatch”可以简化诸如批处理记录并将其写入索引之类的复杂任务,该任务创建一个容器来临时索引文档。

此后,您只需在循环时检查大小,并在达到批量大小限制后刷新索引。

搜索索引

Bleve 公开了多个不同的搜索查询解析器,您可以根据您的搜索需求进行选择。为了使本文简短而有趣,我将使用标准查询字符串解析器。

searchParser := bleve.NewQueryStringQuery("chicken reciepe books")
maxPerPage := 50
ofsset := 0
searchRequest := bleve.NewSearchRequestOptions(searchParser, maxPerPage, offset, false)
// By default bleve returns just the ID, here we specify
// - all the other fields we would like to return.
searchRequest.Fields = []string{"id", "name", "genre"}
searchResults, err := index.Search(searchResult)
登录后复制
登录后复制

只需这几行,您现在就拥有了一个强大的搜索引擎,可以以较低的内存和资源占用提供良好的结果。

这是搜索结果的 JSON 表示,“hits”将包含匹配的文档:

{
    "status": {
        "total": 5,
        "failed": 0,
        "successful": 5
    },
    "request": {},
    "hits": [],
    "total_hits": 19749,
    "max_score": 2.221337297308545,
    "took": 99039137,
    "facets": null
}
登录后复制
登录后复制

刻面

如前所述,Bleve 提供开箱即用的全面分面支持,而无需在您的架构中进行设置。以《流派》一书为例,您可以执行以下操作:

//... build searchRequest -- see previous section.
// Add facets
genreFacet := bleve.NewFacetRequest("genre", 50)
searchRequest.AddFacet("genre", genreFacet)
searchResults, err := index.Search(searchResult)
登录后复制
登录后复制

我们仅用 2 行代码扩展了之前的 searchRequest。 “NewFacetRequest”接受 2 个参数:

  • 字段:索引中要分面的字段(字符串)。

  • 大小:要计数的条目数(整数)。因此,在我们的示例中,它只会计算前 50 个流派。

以上内容现在将填充我们搜索结果中的“方面”。

接下来,我们只需将我们的方面添加到搜索请求中即可。它接受“方面名称”和实际方面。 “Facet name”是您将在我们的搜索结果中找到此结果集的“键”。

高级查询和过滤

虽然“QueryStringQuery”解析器可以为您带来相当多的帮助;有时您需要更复杂的查询,例如“一个必须匹配”,您希望将搜索词与多个字段进行匹配,并返回结果,只要至少有一个字段匹配即可。

您可以使用“Disjunction”和“Conjunction”查询类型来完成此操作。

  • 联合查询:基本上,它允许您将多个查询链接在一起形成一个巨大的查询。所有子查询必须至少匹配一个文档。

  • 析取查询:这将允许您执行上面提到的“一个必须匹配”查询。您可以传入 x 数量的查询,并设置必须匹配至少一个文档的子查询数量。

析取查询示例:

mappings := bleve.NewIndexMapping()
index, err = bleve.NewUsing("/some/path/index.bleve", mappings, "scorch", "scorch", nil)
if err != nil {
    log.Fatal(err)
}
登录后复制
登录后复制

与我们之前使用“searchParser”的方式类似,我们现在可以将“析取查询”传递到“searchRequest”的构造函数中。

虽然不完全相同,但类似于以下 SQL:

type Book struct {
    ID    int    `json:"id"`
    Name  string `json:"name"`
    Genre string `json:"genre"`
}

b := Book{
    ID:    1234,
    Name:  "Some creative title",
    Genre: "Young Adult",
}
idStr := fmt.Sprintf("%d", b.ID)
// index(string, interface{})
index.index(idStr, b)
登录后复制
登录后复制

您还可以通过设置“query.Fuzziness=[0 or 1 or 2]”来调整搜索的模糊程度

连接查询示例:

// You would also want to check if the batch exists already
// - so that you don't recreate it.
batch := index.NewBatch()
if batch.Size() >= 1000 {
    err := index.Batch(batch)
    if err != nil {
        // failed, try again or log etc...
    }
    batch = index.NewBatch()
} else {
    batch.index(idStr, b)
}
登录后复制
登录后复制

您会注意到语法非常相似,您基本上可以互换使用“Conjunction”和“Disjunction”查询。

这将类似于 SQL 中的以下内容:

searchParser := bleve.NewQueryStringQuery("chicken reciepe books")
maxPerPage := 50
ofsset := 0
searchRequest := bleve.NewSearchRequestOptions(searchParser, maxPerPage, offset, false)
// By default bleve returns just the ID, here we specify
// - all the other fields we would like to return.
searchRequest.Fields = []string{"id", "name", "genre"}
searchResults, err := index.Search(searchResult)
登录后复制
登录后复制

总结一下;当您希望所有子查询匹配至少一个文档时,请使用“联合查询”;当您希望匹配至少一个子查询但不一定匹配所有子查询时,请使用“析取查询”。

分片

如果您遇到速度问题,Bleve 还可以将数据分布在多个索引分片上,然后在一个请求中查询这些分片,例如:

{
    "status": {
        "total": 5,
        "failed": 0,
        "successful": 5
    },
    "request": {},
    "hits": [],
    "total_hits": 19749,
    "max_score": 2.221337297308545,
    "took": 99039137,
    "facets": null
}
登录后复制
登录后复制

分片可能会变得相当复杂,但正如您在上面看到的,Bleve 消除了很多痛苦,因为它会自动“合并”所有索引并在它们之间进行搜索,然后在一个结果集中返回结果,就像您搜索一样单个索引。

我一直在使用分片来搜索 100 个分片。整个搜索过程平均只需 100-200 毫秒即可完成。

您可以按如下方式创建分片:

//... build searchRequest -- see previous section.
// Add facets
genreFacet := bleve.NewFacetRequest("genre", 50)
searchRequest.AddFacet("genre", genreFacet)
searchResults, err := index.Search(searchResult)
登录后复制
登录后复制

只要确保为每个文档创建唯一的 ID,或者采用某种可预测的方式添加和更新文档,而不会弄乱索引。

执行此操作的一个简单方法是将包含分片名称的前缀存储在源数据库中或从您获取文档的任何位置。这样,每次您尝试插入或更新时,您都会查找“前缀”,它会告诉您在哪个分片上调用“.index”。

说到更新,只需调用“index.index(idstr, struct)”即可更新现有文档。

结论

仅使用上面的这种基本搜索技术并将其置于 GIN 或标准 Go HTTP 服务器后面,您就可以构建非常强大的搜索 API 并服务数百万个请求,而无需推出复杂的基础设施。

但有一点需要注意;但是,Bleve 不支持复制,因为您可以将其包装在 API 中。只需有一个 cron 作业,从您的源中读取数据,然后使用 goroutine 将更新“爆炸”到您的所有 Bleve 服务器。

或者,您可以将写入磁盘锁定几秒钟,然后将数据“rsync”到从属索引,尽管我不建议这样做,因为您可能还需要每次重新启动 go 二进制文件.

以上是Bleve:如何构建一个快速的搜索引擎?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1653
14
CakePHP 教程
1413
52
Laravel 教程
1305
25
PHP教程
1251
29
C# 教程
1224
24
Golang的目的:建立高效且可扩展的系统 Golang的目的:建立高效且可扩展的系统 Apr 09, 2025 pm 05:17 PM

Go语言在构建高效且可扩展的系统中表现出色,其优势包括:1.高性能:编译成机器码,运行速度快;2.并发编程:通过goroutines和channels简化多任务处理;3.简洁性:语法简洁,降低学习和维护成本;4.跨平台:支持跨平台编译,方便部署。

Golang和C:并发与原始速度 Golang和C:并发与原始速度 Apr 21, 2025 am 12:16 AM

Golang在并发性上优于C ,而C 在原始速度上优于Golang。1)Golang通过goroutine和channel实现高效并发,适合处理大量并发任务。2)C 通过编译器优化和标准库,提供接近硬件的高性能,适合需要极致优化的应用。

Golang vs. Python:主要差异和相似之处 Golang vs. Python:主要差异和相似之处 Apr 17, 2025 am 12:15 AM

Golang和Python各有优势:Golang适合高性能和并发编程,Python适用于数据科学和Web开发。 Golang以其并发模型和高效性能着称,Python则以简洁语法和丰富库生态系统着称。

Golang vs. Python:性能和可伸缩性 Golang vs. Python:性能和可伸缩性 Apr 19, 2025 am 12:18 AM

Golang在性能和可扩展性方面优于Python。1)Golang的编译型特性和高效并发模型使其在高并发场景下表现出色。2)Python作为解释型语言,执行速度较慢,但通过工具如Cython可优化性能。

表演竞赛:Golang vs.C 表演竞赛:Golang vs.C Apr 16, 2025 am 12:07 AM

Golang和C 在性能竞赛中的表现各有优势:1)Golang适合高并发和快速开发,2)C 提供更高性能和细粒度控制。选择应基于项目需求和团队技术栈。

Golang的影响:速度,效率和简单性 Golang的影响:速度,效率和简单性 Apr 14, 2025 am 12:11 AM

GoimpactsdevelopmentPositationalityThroughSpeed,效率和模拟性。1)速度:gocompilesquicklyandrunseff,ifealforlargeprojects.2)效率:效率:ITScomprehenSevestAndArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdArdEcceSteral Depentencies,增强开发的简单性:3)SimpleflovelmentIcties:3)简单性。

C和Golang:表演至关重要时 C和Golang:表演至关重要时 Apr 13, 2025 am 12:11 AM

C 更适合需要直接控制硬件资源和高性能优化的场景,而Golang更适合需要快速开发和高并发处理的场景。1.C 的优势在于其接近硬件的特性和高度的优化能力,适合游戏开发等高性能需求。2.Golang的优势在于其简洁的语法和天然的并发支持,适合高并发服务开发。

Golang和C:性能的权衡 Golang和C:性能的权衡 Apr 17, 2025 am 12:18 AM

Golang和C 在性能上的差异主要体现在内存管理、编译优化和运行时效率等方面。1)Golang的垃圾回收机制方便但可能影响性能,2)C 的手动内存管理和编译器优化在递归计算中表现更为高效。

See all articles