嘉賓| 竇志成
整理| 張鋒
規劃| 徐傑承
##搜尋引擎自誕生之初到現在已經有二十多年,其形式和架構一直沒有太大改變。伴隨著網路科技的持續發展,未來的搜尋環境將變得愈加複雜多樣,用戶獲取資訊的方式也會發生很多的變化,自然語言、語音、視覺等多種輸入形式勢必會取代簡單的關鍵字;答案、高階知識、分析結果、產生內容等多種模態內容輸出將取代簡單結果清單;在互動方式上也可能從單輪檢索過渡到多輪自然語言互動。
豐富知識,搜尋傳回的資訊不只是一個結果清單的形式,可能是有各種不同的展示的形式,以各種知識、實體的方式展示。
去索引
,倒排索引或稠密索引的方式也迫切需要產生很大的變化。
對話式
現在使用的搜尋引擎普遍採用的模式是在一個方塊裡面輸入一兩個字進行搜尋。未來的搜尋則可能是我們與搜尋引擎採用對話的方式互動。在傳統的搜尋引擎中採用的關鍵字檢索方式,我們希望把所有要找的資訊核心都透過關鍵字描述出來,即我們假設單一查詢能夠完整、準確地表達這個訊息的需求。但在表達一個較為複雜的訊息時,關鍵字其實是很難滿足需求的。而對話式搜尋可以透過多輪互動來充分錶達訊息需求,比較符合人和人在溝通的時層遞進訊息的互動方式。
想要到達這種互動式搜索,會對系統或演算法造成很大的挑戰,需要讓搜尋引擎從多輪的自然語言互動中準確地理解用戶的意圖,同時也要把理解出的意圖與使用者想要的資訊做好配對。
相比於傳統的關鍵字搜索,對話式搜尋需要更複雜的查詢理解(例如需要解決當前查詢中的省略,共指等問題),以還原用戶的真實搜尋意圖。最簡單的方式是將歷史查詢全部拼接起來,並使用預訓練語言模型進行編碼。
簡單的拼接對話方式雖然簡單,但可能會引入噪聲,並不是所有的歷史查詢都對於理解當前查詢是有幫助的,所以我們只選出和它有依賴關係的上下文,這樣也能解決長度的問題。
###對話式檢索模型COTED#########基於上述思想,我們提出了對話式稠密檢索的模型COTED,其主要包括如下三部分:##### #######1、透過辨識對話查詢中的依賴關係,來去除對話中的噪聲,進而更好地預測使用者的意圖。 ############2、基於對比學習的資料增強(模仿各種雜訊情況)和去雜訊損失函數,有效讓模型學會忽略無關的上下文,把它和最終匹配的損失函數聯合,做多任務的學習。 ######3、透過課程學習的方式來降低模型多工學習的學習難度,最終提升模型表現。
然而,夠用於對話式搜尋模型訓練的資料其實是非常有限的,在有限的少樣本情況下,對話式搜尋的模型訓練是非常困難的。
如何解決這個問題?出發點就是能否把搜尋引擎日誌遷移去做對話式搜尋引擎的訓練。在這個思想上,把大規模的web搜尋的日誌轉換成對話式搜尋日誌,然後在轉換之後的資料上訓練對話式搜尋的模型。但這種方法也同時伴隨著兩個很明顯的問題:
一是傳統的web搜尋採用關鍵字搜尋的方式,對話式搜尋是自然語言對話的方式,查詢形式是不一樣的,無法直接遷移使用。二是查詢本身就會存在很多噪聲,需要對搜尋日誌裡面的使用者資料做一些清洗、過濾、轉換,才能用在對話式搜尋裡面。
為了解決這些問題,我們做了對話式搜尋訓練模型ConvTrans,並實現了以下功能。
首先,以圖的方式對傳統的web搜尋引擎中的日誌進行了組織,透過查詢與查詢、查詢與文件之間建立聯繫構建了圖。在圖的基礎上,使用了一個基於T5的兩階段查詢改寫的模型,將一個關鍵字的查詢改寫成一個問題的形式。經過改寫之後,圖中每個查詢都會用自然語言來表達新的查詢,再設計一個採樣的演算法,從圖上做隨機遊走,產生對話的會話,之後基於這個資料來訓練對話的模型。
實驗顯示,用這種自動產生的訓練資料來訓練的對話式搜尋模型,能夠和使用昂貴的人造或人工標註的資料達到同樣的效果,並且隨著自動產生的訓練資料規模的增大,效能也會持續提升。這種方法使我們基於大規模搜尋日誌進行訓練對話式搜尋模型成為了可能。
對話式搜尋模型雖然在搜尋上已經走了一大步,但這種對話方式仍然是被動的,搜尋引擎一直被動的接受使用者的輸入,根據輸入來回傳結果,搜尋引擎沒有主動去問使用者你到底要找什麼。但在人和人的溝通過程中,當你被問到一個問題的時候,有時候你會主動地來反問一些問題來做澄清。
例如必應搜尋裡面,如果Query是“Headaches”,頭痛。它會問你“What do want to know about this medical condition”“你想知道關於這個疾病的什麼事”,比如說是它的症狀、還是治療、還是診斷、還是成因或者誘因。因為Headaches本身是非常廣泛的一個Query,在這種情況下,系統希望能夠進一步澄清你想找到哪裡的資訊。
這裡面臨兩個問題,第一是候選項,就是想讓使用者去澄清到哪個特定的項。第二是澄清問題,搜尋引擎主動反過來問用戶的這個問題。而核心詞是澄清問題裡面最至關重要的一部分。
在這方面的探索,第一個是透過查詢日誌和知識庫去給定一個查詢的時候,能夠產生一些澄清的候選項。第二,基於規則可以透過搜尋的結果來預測這個澄清問題的一些核心字。同時也標註一些數據,透過有監督的模型來做這種文字標籤的分類。第三,進一步在這個標註資料的基礎上訓練端到端的生成模型。
個人化指的是未來的搜尋將以使用者為核心。現在的搜尋引擎,不管是誰來查,返回都是同樣的結果。而這並不能滿足使用者特定化資訊的需求。
現在的個人化搜尋採用的模式,首先透過使用者歷史學習使用者熟悉的知識訊息,對查詢進行個人化實體消歧。其次,透過消歧後的查詢實體增強個人化配對。
此外我們在基於產品品類建立使用者的多興趣模型方面也做了探索,假設使用者可能有自己在所有品類上的一些品牌(規格、型號)傾向性,但是這個傾向性不能簡單的通過一兩個向量來去刻畫。應該根據使用者購物的歷史,建立知識圖譜,透過知識圖譜針對不同品類學習不同的興趣,最終做更精準的個人化搜尋的結果推送。
也可以用同樣的個人化方法去做聊天機器人,核心想法就是透過使用者歷史對話,學習使用者個人化興趣和語言模式,訓練個人化對話模型,可以模仿(代理)用戶說話。
現在的搜尋引擎在處理多模態資訊的時候,其實有相當多的限制的。未來用戶獲取的資訊可能不僅僅是一些文字、網頁,還可能包括圖片、影片以及更複雜的結構資訊。所以未來的搜尋引擎在多模態資訊取得上還有很多工作要做。
現在的搜尋引擎在理解或是做跨模態檢索時,也就是給出一個文字的描述,去找它對應的圖片的時候,做得還是有很多缺陷的。類似的搜尋如果遷移到手機上,限制就會更大。
所謂的多模態就是語言、要找的圖像、圖片、影片等模態,映射到統一的一個空間上,這意味著可以透過文字去找圖片,圖片去找文字,圖片去找圖片等。
對此,我們做了大規模多模態的預訓練模型-文瀾。其重點是基於海量的網路圖片和附近文字的弱監督相關性貢獻的資訊訓練出來的。採用雙塔模式,最後訓練的是一個圖片的編碼器和文字的編碼器,這兩個編碼器透過端對端匹配的最佳化學習過程,讓最終的表示向量能夠映射到統一空間中,而不是把圖片的細粒度和文字的細粒度拼接在一起。
這種跨模態的檢索能力,其實不只是端對端給使用者使用web搜尋引擎時提供了更多的空間,同時也可以支援許多應用,例如創作,不管是社群媒體還是文創類,都可以用它來支撐。
現在的搜尋引擎普遍檢索的主體還是網頁,而未來搜尋引擎處理的單元不僅僅是網頁,應該是以知識為處理的單位,包括返回的結果也應該是高階的知識,而不是一個頁面的列表形式。很多時候用戶其實想透過搜尋引擎來完成一些複雜的資訊需求,故而希望搜尋引擎幫忙分析結果,而不是讓人來一個一個分析。
基於此想法我們建立了分析引擎,相當於是在搜尋引擎的基礎上,能提供深度的文字分析,幫助使用者有效率且快速地獲取高階知識。幫助使用者完成對大規模文件的閱讀和理解,並對其中所包含的關鍵資訊和知識進行抽取、挖掘、匯總,最終透過互動的分析過程,讓使用者對挖掘到的高階知識進行瀏覽和分析,進而為使用者提供決策支援。
例如使用者希望找霧霾相關的訊息,可以直接輸入「霧霾」。富知識模式與傳統的搜尋引擎返回的結果不同,可能返回一個時間軸,告訴用戶關於霧霾的信息在時間軸上的分佈等情況,還會總結出關於霧霾的子話題有哪些、機構有哪些、人物有哪些。當然它也可以像搜尋引擎一樣提供詳細的結果的清單。
這種可以直接提供分析,而且是互動式分析的能力,能夠更好地幫助使用者獲取複雜資訊的能力。提供給使用者的東西不再是簡單的搜尋結果清單。當然這種互動式的多維知識分析,只是一種展示方式,以後還可以做更多的方式,比如我們現在正在做的一件事情就是從檢索到生成(有理有據的)內容。
現在的搜尋引擎廣泛採用以索引為核心的分階段方式,從大量互聯網的網頁爬回所需內容後構建Index,也就是倒排的索引或稠密的向量索引。使用者的Query來之後,先要做召回,在召回的結果基礎上再做精細化排序。
這個模式有很多弊端,因為要分階段,如果一個階段上出了問題,例如在召回階段沒有找到想要的結果,它排序階段做得再好,也不可能會回傳很好的結果。
在未來的搜尋引擎中,這種結構有可能是會被打破的。全新的想法是使用一個大的模型來取代現在的索引的模式,所有的查詢都可以透過模型來滿足。這就不再需要使用索引了,而是直接透過這種模型回饋想要的結果。
在這個基礎上,可以直接提供結果列表,也可以直接提供使用者所需的答案,甚至答案還可以是圖像,將各模態較好的融合在一起。去掉索引,直接透過模型來回饋結果,就意味著這個模型能夠直接return或直接返回文檔的標識符,文檔標識符是一定要嵌入到模型中的,建構以模型為中心的搜尋。
現在的搜尋引擎廣泛採用關鍵字為輸入,文件清單為輸出的這種簡單模式。在滿足人們複雜資訊獲取需求方面,已經存在了一些問題。未來的搜尋引擎將會是對話式的、是個人化的、是以使用者為中心的、是能夠破除千人一面的。同時能夠處理多模態的訊息,能夠處理知識、能夠返回知識。在架構上,未來也一定會突破現有的採用倒排索引或稠密向量索引的這種以索引為核心的模式,逐步過渡到以模型為核心的模式。
#竇志成,中國人民大學高瓴人工智慧學院副院長,北京智源人工智慧研究院「智慧資訊檢索與挖掘」方向專案經理。 2008加入微軟亞洲研究院,從事網路搜尋的相關工作,培養了豐富的資訊檢索技術研發經驗。 2014年開始在中國人民大學任教,主要研究方向為智慧資訊檢索及自然語言處理。曾獲國際資訊檢索大會(SIGIR 2013)最佳論文提名獎,亞洲資訊檢索大會(AIRS 2012)最佳論文獎,全國資訊檢索學術會議(CCIR 2018、CCIR 2021)最佳論文獎。擔任SIGIR 2019的程序委員會主席(短文),資訊檢索評測會議NTCIR-16程序委員會主席,中國電腦學會大數據專家委員會副秘書長等職務。近兩年主要關注個人化和多樣化搜尋排序、互動式和對話式搜尋模型、以資訊檢索為導向的預訓練方法、搜尋和推薦模型的可解釋性、個人化產品搜尋等。
以上是未來,我們將如何進行資訊搜尋?的詳細內容。更多資訊請關注PHP中文網其他相關文章!