基于预训练语言模型的行业搜索的应用和研究-人工智能-PHP中文网

用户群体和 UV：消费互联网搜索 UV 非常大，产业互联网面向政企内部的员工。
搜索追求指标：消费互联网，除了追求搜得到、搜得准之外，还追求转化率高。在产业互联网，它更多是信息匹配的需求，所以关注召回跟相关性。
工程系统要求：消费互联网 QPS 的要求会很高，沉淀大量的用户行为，需要有实时日志分析、实时模型训练。产业互联网的要求会低一些。
算法方向：消费互联网会从 offline、nearline、online 的海量用户行为分析建模获得更大收益。产业互联网的用户行为稀疏，所以会更注重内容理解，比如 NLP 或者视觉的理解，研究方向包括 low resource、transfer learning。

二、相关技术研究

搜索是跟系统框架紧密耦合的：包括离线数据，搜索服务框架（绿色部分），搜索技术算法体系（蓝色部分），其底座是 Alicemind 预训练语言模型体系，同样会汇聚做文档分析、query 理解、相关性等。

1、AliceMind 体系

AliceMind 是达摩院构建的层次化预训练语言模型体系。包含了通用预训练模型，多语言、多模态、对话等，是 NLP 所有任务的底座。

2、分词

搜索的分词（原子能力），决定了检索索引粒度，同时也与后续相关性、BM25 粒度有关。针对 task specific 任务，如果去定制一些预训练，能比通用的预训练效果更好。比如最近研究希望在原生 BERT 预训练任务上增加无监督的统计信息的任务，比如统计字词、Gram 粒度、或者边界熵，然后以 mse-loss 增加到预训练。在 CWS/POS、NER上（右图），的诸多任务都达到 SOTA。

另一个研究是跨领域。每次需要标数据、构建监督任务的成本很高，所以需构建跨领域无监督分词的机制。右下角的表格为例，电商分词相比开源的分词质量有明显改善，这套方法也发布到 ACL2020。

3、命名实体识别

搜索命名实体识别主要是对 query 、Doc 进行结构化的理解，识别出关键短语及类型。同时搜索知识图谱的构建也依赖 NER 功能。

搜索 NER 也面临一些挑战。主要是比如 query 常常是比较短的，上下文不足。比如说电商里面 query 实体的歧义性很高，知识性很强。所以这几年在 NER 核心的优化思路，就是通过上下文或者引入知识的方式来增强 NER 的表征。

在 2020年、2021年做了隐式增强的工作 combo embedding。把已有 word extractor 或者 GLUE 的表征动态融合，能搭载在很多业务任务上面达到 SOTA。

2021年，研发基于显式的检索增强，对一条文本会通过搜索引擎得到增强的上下文，融合到 transformer结构。这个工作发表在 ACL 2021 上了。

基于这个工作，我们参加了 SemEval 2022 多语言 NER评测拿了 10 项冠军，以及 best system paper 。

检索增强：输入句子本身之外，检索得到额外 context 并 concat 到输入，结合 KL 的 loss 来帮助学习。在很多开源数据集拿到 SOTA。

4、自适应多任务训练

BERT 本身效果是很好的，但实际生产很少有 GPU 集群，每个任务都要去做 inference性能代价很大。我们思考能否只做一次 inference，在 encoder 之后每个任务自己再做适配，就能得到比较好的效果。

一个直观的方法就是通过 meta-task 的框架纳入 NLP query 分析任务。但传统的 meta-task 是均匀采样的分布。我们提出了 MOMETAS，一个自适应基于元学习的方法，来自适应不同任务的采样。在多个任务去学习的过程中，我们会阶段性用 validation data 做测试看不同任务学习的效果。reward 反过来指导前面训练的采样。（下方表格）在很多任务上结合这个机制，相比 UB（均匀分布）有不少提升。

把上述机制应用在搜索很多行业的场景里去，带来的收益是仅通过一次 BERT 的编码并存储，在很多的下游任务直接复用，能大幅提升性能。

5、搜索召回预训练语言模型

深度检索，无外乎是双塔或单塔，通用的训练范式是有监督信号以及预训练模型，进行 finetune 获得 embedding，对 query 和 doc 进行表征。近期的优化路线主要是数据增强或难样本挖掘，另外是优化预训练语言模型。原生 BERT 不是特别适合搜索的文本表示，所以有针对搜索文本表示的预训练语言模型。其他优化是在于做 multi-view 文本表示，以及特别的 loss 设计。

相比原生 BERT 的随机采样，我们结合搜索词权重提升词权重比较高的词来提升采样概率，学习到的表征更适合搜索召回。除此之外，增加 sentence level 对比学习。结合这两个机制，提出了 ROM 的预训练语言模型。

在 MS MARCO 做实验，对比先前做法能够达到最好的效果。在实际的场景搜索任务中，也能带来较大的提升。同时该模型也参与了 MS 刷榜。

6、HLATR 重排模型

除了 ROM 这个召回阶段之外，在精排、重排阶段，提出了一套 list aware 的 Transformer reranking，即将精排很多分类器的结果通过 Transformer 有机的融合在一起，有比较大的提升。

结合 ROM 和 HLATR 两个方案，3 月份至今（7 月份）仍旧是 SOTA 结果。

三、行业搜索应用

1、地址分析产品

达摩院研发的地址分析产品，背景是各行各业有很多通讯地址。中文的通讯地址有很多特点，比如口语化表达有很多缺省。同时地址本身是人事实物，是客观世界很多实体桥接的一个重要实体单位。所以基于此建立了一套地址知识图谱，提供解析、补齐、搜索、地址分析。

这是产品的技术框图。从下到上包含了地址知识图谱的构建，以及地址预训练语言模型，包括基于搜索引擎的框架串接整个链路。上述提到的基准能力，以 API 的方式提供出来包装成行业方案。

这套技术里面比较重要的一个点是地理语义的预训练语言模型。一个地址在文本表示会是字符串，其实在空间里面它往往是表征成经纬度，在地图中还有对应的图片。所以这三种模态的信息是把它有机融合成一个多模态的地理语义的语言模型，以此来支持在定址里的任务。

上述提到需要做地址相关的很多基础能力，比如分词、纠错、结构化等分析。

最核心的链路是将地理预训练语言模型、地址基础任务、引发搜索引擎的方式将它们桥接起来。比如说搜索浙一医院，可能会对它去做结构化、同义词纠错、term weighting 做向量化、Geohash 的预测。基于分析结果做召回。这个链路是标准的搜索链路，进行文本召回、拼音召回、向量召回，还增加地理召回。召回之后是多阶段的排序，包括多粒度的 feature 融合。

地址搜索体系直观的应用，就是填地址后 suggestion 场景，或者高德地图里面去做搜索，需要把它映射到空间一个点位上。

接下来介绍两个比较行业化的应用方案。第一个是新零售 Family ID，核心诉求是维护一套客户的管理系统，然而各个系统用户信息没有打通，无法实现有效的整合。

比如品牌厂商卖了一个空调，家人由于购买、安装、维修而登记了各种地址、手机号，但对应的实际上是同一个地址。建立的地址搜索归一技术，把不同表示的地址进行归一，生成指纹，将不同用户 ID 聚合到 Family 概念中。

通过家庭聚合的概念，可以做到更好的渗透分析、广告投放触达等新零售下的营销活动。

另外一种应用场景，是 119、129、应急等智能接警应用。因为涉及到老百姓的人身财产安全，所以分秒必争。希望结合语音识别、文本语义理解技术把这个效率提升。

（左边例子）场景有很多特点，比如 ASR 转写的错别字、不流畅、口语化等问题。目标是希望基于自动语音转写分析推断报警地点。

我们提出了一整套系统方案，包括对话理解的口语顺滑纠错、意图识别，以及结合一套搜索从召回粗排精排的机制来最终实现地址推荐。链路已经比较成熟，在中国上百个城市的消防系统落地；消防从报警对话识别出具体的地点，结合推荐、匹配、地址围栏判断具体地点，对应出警。

2、教育拍照搜题

接下来介绍教育行业的拍照收集业务，在 To C、面向老师端也有不少需求。

拍照搜题有几个特点，本身有增量更新的题库，用户群体较大。另外，不同学科、年龄段对应的领域知识性很强。同时是一个多模态的算法，从 OCR 到后续语义理解、搜索等一套链路。

近几年针对拍照收集构建了一整套从算法到系统的链路。

比如，在手机拍照以及 OCR 识别后，会进行拼写纠错、学科预测、分词、词权重等一系列工作，帮助做到检索。

由于 OCR 对英文识别没有空格，训练了一套 K12 英文的预训练算法模型，进行英文的切分。

同时，学科、题目类型都是未知的，需要做一个提前预测。使用多模态，结合图片和文本进行意图理解。

拍照搜题跟普通的用户搜索不太一样，用户搜索往往 query 是比较短，拍照搜题往往是一道完整的题目。题目里面很多词是不重要的，需要做词权重分析，丢弃不重要的词或者排序予以降权。

在拍照搜题场景中优化效果最明显的是向量召回。性能上的要求不太能用 OR 的召回机制，需要用 AND 逻辑，对应特点是召回比较少。去提升 recall 的话，需要做 term weighting、纠错等较冗余的模块。（右图）通过文本加向量的多路召回效果，超过纯 or 逻辑，在 latency 降低 10 倍。

拍照搜索的链路包括了图像向量召回、公式召回、个性化召回。

提供两个例子。第一个是纯文本的 OCR 结果，（左列）旧结果是基于 ES，简单的 OR 召回，加上 BM25 的结果，（右列）经过多路召回以及相关性召回的链路有较大提升。

第二个是拍照含有图形，多路中是必须结合图片召回。

3、电力知识库统一搜索

在企业搜索中有很多半结构化和非结构化数据，提供统一搜索，帮助企业整合数据资源。不仅在电力，其他行业也有类似需求。这里的搜索不再是狭义的搜索，还包含了对文档的预处理文档的AI和知识图谱的构建，还包括后续桥接问答的能力。以上是在电力知识库里，去做一套制度标准文本，从结构化到检索，到应用端的示意图。

以上是基于预训练语言模型的行业搜索的应用和研究的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7491

CakePHP 教程

1377

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

一文搞懂Tokenization！ Apr 12, 2024 pm 02:31 PM

语言模型是对文本进行推理的，文本通常是字符串形式，但模型的输入只能是数字，因此需要将文本转换成数字形式。Tokenization是自然语言处理的基本任务，根据特定需求能够把一段连续的文本序列（如句子、段落等）切分为一个字符序列（如单词、短语、字符、标点等多个单元），其中的单元称为token或词语。根据下图所示的具体流程，首先将文本句子切分成一个个单元，然后将单元素数值化（映射为向量），再将这些向量输入到模型进行编码，最后输出到下游任务进一步得到最终的结果。文本切分按照文本切分的粒度可以将Toke

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列 Oct 07, 2023 pm 12:13 PM

2018年谷歌发布了BERT，一经面世便一举击败11个NLP任务的State-of-the-art(Sota)结果，成为了NLP界新的里程碑；BERT的结构如下图所示，左边是BERT模型预训练过程，右边是对于具体任务的微调过程。其中，微调阶段是后续用于一些下游任务的时候进行微调，例如：文本分类，词性标注，问答系统等，BERT无需调整结构就可以在不同的任务上进行微调。通过”预训练语言模型+下游任务微调”的任务设计，带来了强大的模型效果。从此，“预训练语言模型+下游任务微调”便成为了NLP领域主流训

为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choicequestions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答

云端部署大模型的三个秘密 Apr 24, 2024 pm 03:00 PM

编译|星璇出品|51CTO技术栈（微信号：blog51cto）在过去的两年里，我更多地参与了使用大型语言模型（LLMs）的生成AI项目，而非传统的系统。我开始怀念无服务器云计算。它们的应用范围广泛，从增强对话AI到为各行各业提供复杂的分析解决方案，以及其他许多功能。许多企业将这些模型部署在云平台上，因为公共云提供商已经提供了现成的生态系统，而且这是阻力最小的路径。然而，这并不便宜。云还提供了其他好处，如可扩展性、效率和高级计算能力（按需提供GPU）。在公共云平台上部署LLM的过程有一些鲜为人知的

RoSA: 一种高效微调大模型参数的新方法 Jan 18, 2024 pm 05:27 PM

随着语言模型扩展到前所未有的规模，对下游任务进行全面微调变得十分昂贵。为了解决这个问题，研究人员开始关注并采用PEFT方法。PEFT方法的主要思想是将微调的范围限制在一小部分参数上，以降低计算成本，同时仍能实现自然语言理解任务的最先进性能。通过这种方式，研究人员能够在保持高性能的同时，节省计算资源，为自然语言处理领域带来新的研究热点。RoSA是一种新的PEFT技术，通过在一组基准测试的实验中，发现在使用相同参数预算的情况下，RoSA表现出优于先前的低秩自适应（LoRA）和纯稀疏微调方法。本文将深

顺手训了一个史上超大ViT？Google升级视觉语言模型PaLI：支持100 种语言 Apr 12, 2023 am 09:31 AM

近几年自然语言处理的进展很大程度上都来自于大规模语言模型，每次发布的新模型都将参数量、训练数据量推向新高，同时也会对现有基准排行进行一次屠榜！比如今年4月，Google发布5400亿参数的语言模型PaLM（Pathways Language Model）在语言和推理类的一系列测评中成功超越人类，尤其是在few-shot小样本学习场景下的优异性能，也让PaLM被认为是下一代语言模型的发展方向。同理，视觉语言模型其实也是大力出奇迹，可以通过提升模型的规模来提升性能。当然了，如果只是多任务的视觉语言模

Meta 推出 AI 语言模型 LLaMA，一个有着 650 亿参数的大型语言模型 Apr 14, 2023 pm 06:58 PM

2月25日消息，Meta在当地时间周五宣布，它将推出一种针对研究社区的基于人工智能(AI)的新型大型语言模型，与微软、谷歌等一众受到ChatGPT刺激的公司一同加入人工智能竞赛。Meta的LLaMA是“大型语言模型MetaAI”（LargeLanguageModelMetaAI）的缩写，它可以在非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。该公司将提供底层代码供用户使用，因此用户可以自行调整模型，并将其用于与研究相关的用例。Meta表示，该模型对算力的要

BLOOM可以为人工智能研究创造一种新的文化，但挑战依然存在 Apr 09, 2023 pm 04:21 PM

译者 | 李睿审校 | 孙淑娟BigScience研究项目日前发布了一个大型语言模型BLOOM，乍一看，它看起来像是复制OpenAI的GPT-3的又一次尝试。但BLOOM与其他大型自然语言模型(LLM)的不同之处在于，它在研究、开发、培训和发布机器学习模型方面所做的努力。近年来，大型科技公司将大型自然语言模型(LLM)就像严守商业机密一样隐藏起来，而BigScience团队从项目一开始就把透明与开放放在了BLOOM的中心。其结果是一个大型语言模型，可以供研究和学习，并可供所有人使用。B

See all articles

基于预训练语言模型的行业搜索的应用和研究

一、行业搜索的背景

1、达摩院自然语言智能大图

2、行业搜索本质

3、行业搜索链路

4、消费互联网和产业互联网的搜索

二、相关技术研究

1、AliceMind 体系

2、分词

3、命名实体识别

4、自适应多任务训练

5、搜索召回预训练语言模型

6、HLATR 重排模型

三、行业搜索应用

1、地址分析产品

2、教育拍照搜题

3、电力知识库统一搜索

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题