#上圖是達摩院自然語言處理智慧的技術框圖,從下到上包含:
面向產業和消費網路的搜尋本質都是一樣的:使用者有資訊取得需求,同時有資訊資源庫,透過搜尋引擎把兩者橋接起來。
以電商場景來舉例說明。例如用戶在電商裡面搜尋 aj1 北卡藍新款球鞋。為了更好地理解這樣一個用戶的query,需要進行一系列任務:
#如果依照搜尋的範式來分,一般分為sparse retrieval 及dense retrieval。
一般將搜尋做這樣一個連結性的分割:回想、排序(粗排、精排、重排)。
#召回階段:##
從左到右,模型複雜度、效果精度變高。從右到左,處理 Doc 數變多。以淘寶電商為例,例如召回(幾十億),初排(幾十萬),到精排(幾百、上千),到重排(幾十)量級。
搜尋生產連結是檢索效果跟工程效率 trade-off 的系統。隨著算力的成長,複雜模型開始往前置換。比如說精排的模型,現在慢慢會下沉到粗排、甚至召回這個階段。
搜尋效果評估:
#搜尋在不同行業場景裡區別是很大的,在此把它分為消費互聯網搜尋與產業互聯網搜尋:
搜尋是跟系統框架緊密耦合的:包括離線數據,搜尋服務框架(綠色部分),搜尋技術演算法體系(藍色部分),其底座是Alicemind 預訓練語言模型體系,同樣會匯聚做文件分析、query 理解、相關性等。
##AliceMind 是由達摩院建構的層次化預訓練語言模型系統。包含了通用預訓練模型,多語言、多模態、對話等,是 NLP 所有任務的底座。
#搜尋的分詞(原子能力),決定了檢索索引粒度,同時也與後續相關性、BM25 粒度有關。針對 task specific 任務,如果去客製化一些預訓練,能比通用的預訓練效果更好。例如最近研究希望在原生 BERT 預訓練任務上增加無監督的統計資料的任務,例如統計字詞、Gram 粒度、或邊界熵,然後以 mse-loss 增加到預訓練。在 CWS/POS、NER上(右圖),的許多任務都達到 SOTA。
另一個研究是跨領域。每次需要標數據、建構監督任務的成本很高,所以需建構跨領域無監督分詞的機制。右下角的表格為例,電商分詞相較於開源的分詞品質有明顯改善,這套方法也發佈到 ACL2020。
#搜尋命名實體辨識主要是對query 、Doc 進行結構化的理解,辨識出關鍵字詞及類型。同時搜尋知識圖譜的建構也依賴 NER 功能。
搜尋 NER 也面臨一些挑戰。主要是例如 query 常常是比較短的,上下文不足。比如說電商裡面 query 實體的歧義性很高,知識性很強。所以這幾年在 NER 核心的最佳化思路,就是透過脈絡或引入知識的方式來增強 NER 的表徵。
在 2020年、2021年做了隱含增強的工作 combo embedding。把已有 word extractor 或 GLUE 的表徵動態融合,能搭載在很多業務任務上面達到 SOTA。
2021年,研發基於明確的檢索增強,對一則文字會透過搜尋引擎得到增強的上下文,融合到 transformer結構。這份工作發表在 ACL 2021 上了。
基於這個工作,我們參加了 SemEval 2022 多國語言 NER評測拿了 10 項冠軍,以及 best system paper 。
# 檢索增強:輸入句子本身之外,檢索得到額外context 並concat 到輸入,結合KL 的loss 來幫助學習。在很多開源資料集拿到 SOTA。
##BERT 本身效果是很好的,但實際生產很少有GPU 集群,每個任務都要去做inference效能代價很大。我們思考能否只做一次 inference,在 encoder 之後每個任務自己再做適配,就能得到比較好的效果。
一個直覺的方法就是透過 meta-task 的框架納入 NLP query 分析任務。但傳統的 meta-task 是均勻採樣的分佈。我們提出了 MOMETAS,一個自適應基於元學習的方法,來自適應不同任務的取樣。在多個任務去學習的過程中,我們會階段性用 validation data 做測驗看不同任務學習的效果。 reward 反過來指導前面訓練的採樣。 (下方表格)在許多任務上結合這個機制,相比 UB(均勻分佈)有不少提升。
把上述機制應用在搜尋很多產業的場景裡去,帶來的效益是只透過一次BERT 的編碼並存儲,在很多的下游任務直接重複使用,能大幅提升效能。
深度檢索,無外乎是雙塔或單塔,通用的訓練範式是有監督信號以及預訓練模型,進行finetune 獲得embedding,對query 和doc 進行表徵。近期的最佳化路線主要是資料增強或難樣本挖掘,另外是優化預訓練語言模型。原生 BERT 不是特別適合搜尋的文字表示,所以有針對搜尋文字表示的預訓練語言模型。其他最佳化是在於做 multi-view 文字表示,以及特別的 loss 設計。
比較原生BERT 的隨機取樣,我們結合搜尋字詞權重提升詞權重比較高的字來提升取樣機率,學習到的表徵更適合搜尋召回。除此之外,增加 sentence level 對比學習。結合這兩個機制,提出了 ROM 的預訓練語言模型。
在 MS MARCO 做實驗,比較先前做法能夠達到最好的效果。在實際的場景搜尋任務中,也能帶來較大的提升。同時模型也參與了 MS 刷榜。
除了ROM 這個召回階段之外,在精排、重排階段,提出了一套list aware 的Transformer reranking,即將精排很多分類器的結果透過Transformer 有機的融合在一起,有比較大的提升。
結合 ROM 和 HLATR 兩個方案,3 月至今(7 月)仍舊是 SOTA 結果。
#達摩院研發的地址分析產品,背景是各行各業有很多通訊地址。中文的通訊地址有很多特點,例如口語化表達有很多預設。同時地址本身是人事實物,是客觀世界許多實體橋接的一個重要實體單位。所以基於此建立了一套位址知識圖譜,提供解析、補齊、搜尋、位址分析。
這是產品的技術框圖。從下到上包含了地址知識圖譜的構建,以及地址預訓練語言模型,包括基於搜尋引擎的框架串接整個鏈路。上述提到的基準能力,以 API 的方式提供出來包裝成產業方案。
這套技術裡面比較重要的一個點是地理語意的預訓練語言模型。一個地址在文字表示會是字串,其實在空間裡面它往往是表徵成經緯度,在地圖中還有對應的圖片。所以這三種模態的訊息是把它有機融合成一個多模態的地理語義的語言模型,以此來支持在定址裡的任務。
上述提到需要做地址相關的許多基礎能力,例如分詞、糾錯、結構化等分析。
最核心的連結是將地理預訓練語言模型、位址基礎任務、引發搜尋引擎的方式將它們橋接起來。比如說搜尋浙一醫院,可能會對它去做結構化、同義詞糾錯、term weighting 做矢量化、Geohash 的預測。基於分析結果做召回。這個連結是標準的搜尋鏈路,進行文字召回、拼音召回、向量召回,也增加地理召回。召回之後是多階段的排序,包括多粒度的 feature 融合。
地址搜尋體系直覺的應用,就是填地址後suggestion 場景,或是高德地圖裡面去做搜索,需要把它映射到空間一個點位上。
接下來介紹兩個比較產業化的應用方案。第一個是新零售 Family ID,核心訴求是維護一套客戶的管理系統,然而各個系統使用者資訊沒有打通,無法實現有效的整合。
例如品牌廠商賣了一個空調,家人因為購買、安裝、維修而登記了各種地址、手機號,但對應的其實是同一個地址。建立的位址搜尋歸一技術,將不同表示的位址歸一,產生指紋,將不同使用者 ID 聚合到 Family 概念中。
透過家庭聚合的概念,可以做到更好的滲透分析、廣告投放觸達等新零售下的行銷活動。
另外一種應用場景,是 119、129、緊急應變等智慧接警應用。因為涉及老百姓的人身財產安全,所以分秒必爭。希望結合語音辨識、文字語意理解技術把這個效率提升。
(左邊例子)場景有很多特點,例如ASR 轉寫的錯字、不流暢、口語化等問題。目標是希望基於自動語音轉寫分析推斷警報地點。
我們提出了一整套系統方案,包括對話理解的口語順滑糾錯、意圖識別,以及結合一套搜尋從召回粗排精排的機制來最終實現地址推薦。鏈路已經比較成熟,在中國上百個城市的消防系統落地;消防從警報對話識別出具體的地點,結合推薦、匹配、地址圍欄判斷具體地點,對應出警。
2、教育拍照搜題
#接下來介紹教育產業的拍照蒐集業務,在To C、面向老師端也有不少需求。
拍照搜尋題有幾個特點,本身有增量更新的題庫,使用者群體較大。另外,不同學科、年齡對應的領域知識性很強。同時是一個多模態的演算法,從 OCR 到後續語意理解、搜尋等一套連結。
近年來針對拍照收集建立了一整套從演算法到系統的連結。 ##########
例如,在手機拍照以及OCR 識別後,會進行拼字糾錯、學科預測、分詞、詞權重等一系列工作,幫助做到檢索。
由於OCR 對英文辨識沒有空格,訓練了一套K12 英文的預訓練演算法模型,進行英文的切分。
同時,學科、題目類型都是未知的,需要做一個提前預測。使用多模態,結合圖片和文字進行意圖理解。
拍照搜題跟普通的用戶搜尋不太一樣,用戶搜尋往往query 是比較短,拍照搜題往往是一道完整的題目。題目裡面很多字是不重要的,需要做詞權重分析,丟棄不重要的字或排序予以降權。
在拍照搜題場景中最佳化效果最明顯的是向量召回。性能上的要求不太能用 OR 的召回機制,需要用 AND 邏輯,對應特點是召回比較少。去提升 recall 的話,需要做 term weighting、糾錯等較冗餘的模組。 (右圖)透過文字加向量的多路召回效果,超過純 or 邏輯,在 latency 降低 10 倍。
拍照搜尋的連結包含了影像向量回想、公式回想、個人化回想。
提供兩個範例。第一個是純文字的OCR 結果,(左列)舊結果是基於ES,簡單的OR 召回,加上BM25 的結果,(右列)經過多路召回以及相關性召回的鏈路有較大提升。
第二個是拍照含有圖形,多路中是必須結合圖片召回。
############### ##############在企業搜尋中有很多半結構化和非結構化數據,提供統一搜索,幫助企業整合數據資源。不僅在電力,其他產業也有類似需求。這裡的搜索不再是狹義的搜索,還包含了對文檔的預處理文檔的AI和知識圖譜的構建,還包括後續橋接問答的能力。以上是在電力知識庫裡,去做一套制度標準文本,從結構化到檢索,到應用端的示意圖。 ##########
以上是基於預訓練語言模型的行業搜尋的應用和研究的詳細內容。更多資訊請關注PHP中文網其他相關文章!