小紅書從記憶機制解讀資訊檢索,提出新典範取得 EACL Oral
近日,來自小紅書搜尋演算法團隊的論文《Generative Dense Retrieval: Memory Can Be a Burden》被自然語言處理領域國際會議EACL 2024 接收為Oral,接受率為11.32%(144/1271)。
他們在論文中提出了一個新穎的資訊檢索範式-生成式密集檢索(Generative Dense Retrieval,GDR)。 此範式能夠很好地解決傳統生成式檢索(Generative Retrieval,GR)在處理大規模資料集時所面臨的挑戰。它是從記憶機制得到的靈感。
在過往的實踐中,GR憑藉其獨特的記憶機制,實現了查詢與文件庫間的深度互動。然而,這種依賴語言模型自回歸編碼的方法,在處理大規模資料時存在明顯的局限性,包括細粒度文檔特徵模糊、文檔庫規模受限、索引更新困難等。
小紅書提出的GDR 採用由粗到細的兩階段檢索思想,首先利用語言模型有限的記憶容量,實現查詢到文檔將的映射,然後透過向量匹配機製完成文件將到文件的精細映射。 GDR 透過引入密集集檢索的向量匹配機制,有效緩解了 GR 的固有弊端。
此外,團隊也設計了「記憶友善的文檔簇標識符建構策略」與「文檔簇自適應的負採樣策略」,分別提升了兩階段的檢索效能。在Natural Questions 資料集的多個設定下,GDR 不僅展現了SOTA 的Recall@k 表現,更在保留深度交互優勢的同時實現了良好的可擴展性,為資訊檢索的未來研究開闢了新的可能性。
1.背景
文本搜尋工具具有重要的研究與應用價值。傳統搜尋範式,如基於字詞匹配度的稀疏檢索(sparse retrieval, SR)和基於語義向量匹配度的密集檢索(dense retrieval, DR),雖然各有千秋,但隨著預訓練語言模型的興起,基於此的生成式檢索範式開始嶄露頭角。 生成式檢索範式的開端主要基於查詢和候選文件之間的語意匹配度。透過將查詢和文件對應到同一語意空間,將候選文件的檢索問題轉換為向量匹配度的密集檢索。這種開創性的檢索範式利用了預訓練語言模型的優勢,為文字搜尋領域帶來了新的機會。 然而,生成式檢索範式仍面臨挑戰。一方面,現有的預訓
在訓練過程中,模型以給定查詢作為上下文,自回歸地產生相關文件的識別碼。這個過程實現了模型對於候選語料庫的記憶。查詢進入模型後與模型參數交互並自回歸解碼,隱式地產生了查詢與候選語料庫的深度交互,而這種深度交互正是 SR 和 DR 所缺少的。因此,當模型能夠準確記憶候選文件時,GR 能夠表現出優異的檢索表現。
儘管GR的記憶機轉並非無懈可擊。我們透過經典DR模型(AR2)與GR模型(NCI)之間的比較實驗,證實了記憶機制至少會帶來三大挑戰:
1)細粒度文件特徵模糊:
我們分別計算了NCI 和AR2 在由粗到細解碼文檔標識符的每一位時發生錯誤的機率。對於 AR2,我們透過向量匹配找到給定查詢最相關的文檔對應的標識符,然後統計標識符的首次出錯步數,得到 AR2 對應的分步解碼錯誤率。如表1所示,NCI 在解碼的前半段中表現良好,而後半段錯誤率較高,AR2 與之相反。這說明 NCI 透過整體記憶庫,能較好地完成查找到候選文檔語意空間的粗粒度映射。但由於訓練過程中的選擇特徵是由查找來決定的,因此其細粒度映射難以被準確記憶,故而在細粒度映射時表現不佳。
2)文档库规模受限:
如表 2 所示,我们分别以 334K 的候选文档库大小(第一行)和 1M 的候选文档大小(第二行)训练了 NCI 模型并以 R@k 指标进行测试。结果表明 NCI 在 R@100 上下降了 11 point,对比之下 AR2 只下降了 2.8 point。为了探究候选文档库规模扩大使 NCI 性能显著下降的原因,我们进一步测试了在 1M 文档库上训练的 NCI 模型在以 334K 为候选文档库时的测试结果(第三行)。与第一行相比,NCI 记忆更多文档的负担导致了其召回性能的显著下降,这说明模型有限的记忆容量限制了其记忆大规模的候选文档库。
3)索引更新困难:
当新文档需要加入候选库时,需要更新文档标识符,并且需要重新训练模型以重新记忆所有文档。否则,过时的映射关系(查询到文档标识符和文档标识符到文档)将显著降低检索性能。
上述问题阻碍了 GR 在真实场景下的应用。为此,我们在分析后认为 DR 的匹配机制与记忆机制有着互补的关系,因此考虑将其引入 GR,在保留记忆机制的同时抑制其带来的弊端。我们提出了生成式密集检索新范式(Generative Dense Retrieval,GDR):
- 我们整体设计了由粗到细的两阶段检索框架,利用记忆机制实现簇间匹配(查询到文档簇的映射),通过向量匹配机制完成簇内匹配(文档簇到文档的映射)。
- 为了协助模型记忆候选文档库,我们构建了记忆友好的文档簇标识符构建策略,以模型记忆容量为基准控制文档簇的划分粒度,增益簇间匹配效果。
- 在训练阶段,我们依据两阶段检索的特点提出文档簇自适应的负采样策略,增强簇内负样本的权重,增益簇内匹配效果。
2.1 基于记忆机制的簇间匹配
以查询作为输入,我们利用语言模型记忆候选文档库,并自回归生成 k 个相关文档簇(CID),完成如下映射:
在这一过程中,CID 的生成概率为:
其中
是编码器产生的所有查询嵌入,
是编码器产生的一维查询表征。该概率同时作为簇间匹配分数被存储,参与后续运算。基于此,我们采用标准交叉熵损失训练模型:
2.2 基于向量匹配机制的簇内匹配
我们进一步从候选文档簇内检索候选文档,完成簇内匹配:
我们引入一个文档编码器提取候选文档的表征,这一过程会离线完成。以此为基础,计算簇内文档与查询间的相似度,作为簇内匹配分数:
在这一过程中,NLL loss 被用来训练模型:
最后,我们计算文档的簇间匹配分数与簇内匹配分数的加权值并进行排序,选出其中的 Top K 作为检索出的相关文档:
其中 beta 在我们的实验中设定为 1。
2.3 記憶友善的文檔簇標識符建立策略
為了充分利用模型有限的記憶容量實現查詢與候選文檔庫之間的深度交互,我們提出記憶友善的文檔簇標識符建構策略。此策略首先以模型記憶容量為基準,計算簇內文檔數上限:
#在此基礎上,進一步透過K-means 演算法構建文檔簇標識符,保障模型的記憶負擔不超過其記憶容量:
#2.4 文檔簇自適應的負取樣策略
GDR 兩階段的檢索框架決定了在簇內配對過程中簇內的負樣本所佔比例較大。為此,我們在第二階段訓練過程中以文檔簇劃分為基準,明確增強了簇內負樣本的權重,從而獲得更好的簇內匹配效果:
3.實驗
#實驗中所使用的資料集為Natural Questions (NQ),它包含58K 個訓練對(查詢和相關文件)以及6K 個驗證對,伴隨著21M 個候選文檔庫。每個查詢多個相關文檔,這對模型的召回性能提出了更高的要求。為了評估 GDR 在不同規模文件庫上的效能,我們建立了 NQ334K、NQ1M、NQ2M 和 NQ4M 等不同設置,透過向 NQ334K 添加來自完整 21M 語料庫的其餘段落來實現。 GDR 在每個資料集上分別產生 CIDs,以防止更大候選文件庫的語意資訊外洩到較小的語料庫中。我們採用 BM25(Anserini 實現)作為 SR 基線,DPR 和 AR2 作為 DR 基線,NCI 作為 GR 的基線。評估指標包括 R@k 和 Acc@k。
3.1 主實驗結果
在NQ 資料集上,GDR 在R@k 指標上平均提高了3.0,而在Acc@ k 指標上排名第二。這表明 GDR 透過粗到細的檢索過程,最大化了記憶機制在深度互動和匹配機制在細粒度特徵辨別中的優勢。
3.2 擴展到更大的語料庫
我們注意到當候選語料庫擴展到更大的規模時,SR 和DR 的R@100 下降率保持在4.06% 以下,而GR 在所有三個擴展方向上的下降率超過了15.25%。相較之下,GDR 透過將記憶內容集中在固定體量的語料庫粗粒度特徵上,實現了平均 3.50% 的 R@100 下降率,與 SR 和 DR 相似。
#3.3 消融實驗
#表3 GDR- bert 與GDR-ours 分別代表了傳統和我們的CID 構建策略下對應的模型表現,實驗證明使用記憶友好的文檔簇標識符構建策略,可以顯著減輕記憶負擔,從而帶來更好的檢索性能。此外,表 4 顯示 GDR 訓練時採用的文檔簇自適應的負採樣策略,透過提供更多的文檔簇內辨別訊號,增強了細粒度匹配能力。
3.4 新文檔加入
當有新文檔加入候選文檔庫時,GDR 將新文檔加入距離最近的文檔簇聚類中心,並賦予相應標識符,同時透過文檔編碼器提取向量表徵更新向量索引,從而完成對新文檔的快速擴展。如表 6 所示,在新增文件到候選語料庫的設定下,NCI 的 R@100 下降了 18.3 個百分點,而 GDR 的效能僅下降了 1.9 個百分點。這表明 GDR 透過引入匹配機制來緩解記憶機制的難以擴展性,在無需重新訓練模型的情況下保持了良好的回想效果。
3.5 局限性
受限于语言模型自回归生成的特点,尽管 GDR 在第二阶段引入了向量匹配机制,相比于 GR 实现了显著的检索效率提升,但相比于 DR 与 SR 仍有较大的提升空间。我们期待未来有更多的研究帮助缓解记忆机制引入检索框架时带来的时延问题。
4.结语
本项研究中,我们深入探讨了记忆机制在信息检索中的双刃剑效应:一方面这一机制实现了查询与候选文档库的深度交互,弥补了密集检索的不足;另一方面模型有限的记忆容量与更新索引的复杂性,它在面对大规模和动态变化候选文档库时显得捉襟见肘。为了解决这一难题,我们创新性地将记忆机制与向量匹配机制进行层次化结合,实现两者扬长避短、相得益彰的效果。
我们提出了一个全新的文本检索范式,生成式密集检索(GDR)。GDR 该范式对于给定查询进行由粗到细的两阶段检索,先由记忆机制自回归地生成文档簇标识符实现查询到文档簇的映射,再由向量匹配机制计算查询与文档间相似度完成文档簇到文档的映射。
记忆友好的文档簇标识符构建策略保障了模型的记忆负担不超过其记忆容量,增益簇间匹配效果。文档簇自适应的负采样策略增强了区分簇内负样本的训练信号,增益簇内匹配效果。大量实验证明,GDR 在大规模候选文档库上能够取得优异的检索性能,同时能够高效应对文档库更新。
作为一次对传统检索方法进行优势整合的成功尝试,生成式密集检索范式具有召回性能好、可扩展性强、在海量候选文档库场景下表现稳健等优点。随着大语言模型在理解与生成能力上的不断进步,生成式密集检索的性能也将进一步提升,为信息检索开辟更加广阔的天地。
论文地址:https://www.php.cn/link/9e69fd6d1c5d1cef75ffbe159c1f322e
5.作者简介
-
袁沛文
现博士就读于北京理工大学,小红书社区搜索组实习生,在 NeurIPS、ICLR、AAAI 、EACL 等发表多篇一作论文。主要研究方向为大语言模型推理与评测、信息检索。 -
王星霖
现博士就读于北京理工大学,小红书社区搜索组实习生,在 EACL、NeurIPS、ICLR 等发表数篇论文,在国际对话技术挑战赛 DSTC11 上获得测评赛道第二名。主要研究方向为大语言模型推理与测评、信息检索。 -
冯少雄
负责小红书社区搜索向量召回。博士毕业于北京理工大学,在 ICLR、AAAI、ACL、EMNLP、NAACL、EACL、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文。主要研究方向为大语言模型测评推理蒸馏、生成式检索、开放域对话生成等。 -
道玄
小红书交易搜索团队负责人。博士毕业于浙江大学,在 NeurIPS、ICML 等机器学习领域顶级会议上发表数篇一作论文,长期作为多个顶级会议/期刊审稿人。主要业务覆盖内容搜索、电商搜索、直播搜索等。 -
曾书
硕士毕业于清华大学电子系,在互联网领域从事自然语言处理、推荐、搜索等相关方向的算法工作,目前在小红书社区搜索负责召回和垂类搜索等技术方向。
以上是小紅書從記憶機制解讀資訊檢索,提出新典範取得 EACL Oral的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

語言模型是對文字進行推理的,文字通常是字串形式,但模型的輸入只能是數字,因此需要將文字轉換成數字形式。 Tokenization是自然語言處理的基本任務,根據特定需求能夠把一段連續的文字序列(如句子、段落等)切分為一個字元序列(如單字、片語、字元、標點等多個單元),其中的單元稱為token或詞語。根據下圖所示的具體流程,首先將文字句子切分成一個個單元,然後將單元素數值化(映射為向量),再將這些向量輸入到模型進行編碼,最後輸出到下游任務進一步得到最終的結果。文本切分依照文本切分的粒度可以將Toke

編譯|星璇出品|51CTO技術堆疊(微訊號:blog51cto)在過去的兩年裡,我更參與了使用大型語言模型(LLMs)的生成AI項目,而非傳統的系統。我開始懷念無伺服器雲端運算。它們的應用範圍廣泛,從增強對話AI到為各行各業提供複雜的分析解決方案,以及其他許多功能。許多企業將這些模型部署在雲端平台上,因為公有雲供應商已經提供了現成的生態系統,而且這是阻力最小的路徑。然而,這並不便宜。雲端還提供了其他好處,如可擴展性、效率和高階運算能力(按需提供GPU)。在公有雲平台上部署LLM的過程有一些鮮為人知的

2018年Google發布了BERT,一經面世便一舉擊敗11個NLP任務的State-of-the-art(Sota)結果,成為了NLP界新的里程碑;BERT的結構如下圖所示,左邊是BERT模型預訓練過程,右邊是對於具體任務的微調過程。其中,微調階段是後續用於一些下游任務的時候進行微調,例如:文本分類,詞性標註,問答系統等,BERT無需調整結構就可以在不同的任務上進行微調。透過」預訓練語言模型+下游任務微調」的任務設計,帶來了強大的模型效果。從此,「預訓練語言模型+下游任務微調」便成為了NLP領域主流訓

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

2月25日消息,Meta在當地時間週五宣布,它將推出一種針對研究社區的基於人工智慧(AI)的新型大型語言模型,與微軟、谷歌等一眾受到ChatGPT刺激的公司一同加入人工智能競賽。 Meta的LLaMA是「大型語言模式MetaAI」(LargeLanguageModelMetaAI)的縮寫,它可以在非商業許可下提供給政府、社區和學術界的研究人員和實體工作者。該公司將提供底層程式碼供用戶使用,因此用戶可以自行調整模型,並將其用於與研究相關的用例。 Meta表示,該模型對算力的要

隨著語言模型擴展到前所未有的規模,對下游任務進行全面微調變得十分昂貴。為了解決這個問題,研究人員開始注意並採用PEFT方法。 PEFT方法的主要想法是將微調的範圍限制在一小部分參數上,以降低計算成本,同時仍能實現自然語言理解任務的最先進性能。透過這種方式,研究人員能夠在保持高效能的同時,節省運算資源,為自然語言處理領域帶來新的研究熱點。 RoSA是一種新的PEFT技術,透過在一組基準測試的實驗中,發現在使用相同參數預算的情況下,RoSA表現出優於先前的低秩自適應(LoRA)和純稀疏微調方法。本文將深

近幾年自然語言處理的進展很大程度都來自於大規模語言模型,每次發布的新模型都將參數量、訓練資料量推向新高,同時也會對現有基準排行進行一次屠榜!例如今年4月,Google發布5400億參數的語言模型PaLM(Pathways Language Model)在語言和推理類的一系列測評中成功超越人類,尤其是在few-shot小樣本學習場景下的優異性能,也讓PaLM被認為是下一代語言模式的發展方向。同理,視覺語言模型其實也是大力出奇蹟,可以透過提升模型的規模來提升表現。當然了,如果只是多工的視覺語言模

編輯|白菜葉許多臨床任務需要了解專業數據,例如醫學影像、基因組學等。這類專業知識資訊在通用多模態大模型的訓練中通常不存...在上一篇論文的描述中,Med-Gemini在各種醫學成像任務上超越GPT-4系列模型實現了SOTA!在這裡,GoogleDeepMind撰寫了第二篇關於Med-Gemini的論文。在Gemini的多模態模型的基礎上,該團隊為Med-Gemini系列開發了多個模型。這些模型繼承了Gemini的核心功能,並透過2D和3D放射學、組織病理學、眼科、皮膚病學和基因組數據的微調,針對
