未來,我們將如何進行資訊搜尋?
嘉賓| 竇志成
整理| 張鋒
規劃| 徐傑承
##搜尋引擎自誕生之初到現在已經有二十多年,其形式和架構一直沒有太大改變。伴隨著網路科技的持續發展,未來的搜尋環境將變得愈加複雜多樣,用戶獲取資訊的方式也會發生很多的變化,自然語言、語音、視覺等多種輸入形式勢必會取代簡單的關鍵字;答案、高階知識、分析結果、產生內容等多種模態內容輸出將取代簡單結果清單;在互動方式上也可能從單輪檢索過渡到多輪自然語言互動。
- 那麼在新的搜尋的環境下,未來智慧搜尋技術都會呈現出哪些特徵呢?日前,在51CTO主辦的在
- #AISummit全球人工智慧技術大會 上,中國人民大學高瓴人工智慧學院副院長竇志成老師透過主題演講-《下一代智慧搜尋技術》,為廣大聽眾分享了新一代智慧搜尋技術的發展趨勢及核心特徵,同時就互動式、多模態、可解釋搜尋、及以大模型為中心的去索引化搜尋等技術做出了詳盡分析。本文將竇志成老師的演講內容進行了編輯整理,希望能為大家帶來一些新的啟發:
- #未來搜尋的主要特徵##我們認為未來的搜尋可能會有至少這五個面向的特徵:
- 對話式, 人與搜尋引擎是透過自然語言進行多輪互動的一種方式。
- 個人化, 會根據不同使用者的需求回饋不同的結果,而不是千篇一律、千人一面的為所有人回饋相同的結果。
- 多模態, 傳回的內容和輸入的方式可能不僅限於用文字來作為媒介或是途徑。
豐富知識,搜尋傳回的資訊不只是一個結果清單的形式,可能是有各種不同的展示的形式,以各種知識、實體的方式展示。
去索引
,倒排索引或稠密索引的方式也迫切需要產生很大的變化。
對話式
現在使用的搜尋引擎普遍採用的模式是在一個方塊裡面輸入一兩個字進行搜尋。未來的搜尋則可能是我們與搜尋引擎採用對話的方式互動。在傳統的搜尋引擎中採用的關鍵字檢索方式,我們希望把所有要找的資訊核心都透過關鍵字描述出來,即我們假設單一查詢能夠完整、準確地表達這個訊息的需求。但在表達一個較為複雜的訊息時,關鍵字其實是很難滿足需求的。而對話式搜尋可以透過多輪互動來充分錶達訊息需求,比較符合人和人在溝通的時層遞進訊息的互動方式。
想要到達這種互動式搜索,會對系統或演算法造成很大的挑戰,需要讓搜尋引擎從多輪的自然語言互動中準確地理解用戶的意圖,同時也要把理解出的意圖與使用者想要的資訊做好配對。
相比於傳統的關鍵字搜索,對話式搜尋需要更複雜的查詢理解(例如需要解決當前查詢中的省略,共指等問題),以還原用戶的真實搜尋意圖。最簡單的方式是將歷史查詢全部拼接起來,並使用預訓練語言模型進行編碼。
簡單的拼接對話方式雖然簡單,但可能會引入噪聲,並不是所有的歷史查詢都對於理解當前查詢是有幫助的,所以我們只選出和它有依賴關係的上下文,這樣也能解決長度的問題。
###對話式檢索模型COTED#########基於上述思想,我們提出了對話式稠密檢索的模型COTED,其主要包括如下三部分:##### #######1、透過辨識對話查詢中的依賴關係,來去除對話中的噪聲,進而更好地預測使用者的意圖。 ############2、基於對比學習的資料增強(模仿各種雜訊情況)和去雜訊損失函數,有效讓模型學會忽略無關的上下文,把它和最終匹配的損失函數聯合,做多任務的學習。 ######3、透過課程學習的方式來降低模型多工學習的學習難度,最終提升模型表現。
然而,夠用於對話式搜尋模型訓練的資料其實是非常有限的,在有限的少樣本情況下,對話式搜尋的模型訓練是非常困難的。
如何解決這個問題?出發點就是能否把搜尋引擎日誌遷移去做對話式搜尋引擎的訓練。在這個思想上,把大規模的web搜尋的日誌轉換成對話式搜尋日誌,然後在轉換之後的資料上訓練對話式搜尋的模型。但這種方法也同時伴隨著兩個很明顯的問題:
一是傳統的web搜尋採用關鍵字搜尋的方式,對話式搜尋是自然語言對話的方式,查詢形式是不一樣的,無法直接遷移使用。二是查詢本身就會存在很多噪聲,需要對搜尋日誌裡面的使用者資料做一些清洗、過濾、轉換,才能用在對話式搜尋裡面。
對話式搜尋訓練模型ConvTrans
為了解決這些問題,我們做了對話式搜尋訓練模型ConvTrans,並實現了以下功能。
首先,以圖的方式對傳統的web搜尋引擎中的日誌進行了組織,透過查詢與查詢、查詢與文件之間建立聯繫構建了圖。在圖的基礎上,使用了一個基於T5的兩階段查詢改寫的模型,將一個關鍵字的查詢改寫成一個問題的形式。經過改寫之後,圖中每個查詢都會用自然語言來表達新的查詢,再設計一個採樣的演算法,從圖上做隨機遊走,產生對話的會話,之後基於這個資料來訓練對話的模型。
實驗顯示,用這種自動產生的訓練資料來訓練的對話式搜尋模型,能夠和使用昂貴的人造或人工標註的資料達到同樣的效果,並且隨著自動產生的訓練資料規模的增大,效能也會持續提升。這種方法使我們基於大規模搜尋日誌進行訓練對話式搜尋模型成為了可能。
對話式搜尋模型雖然在搜尋上已經走了一大步,但這種對話方式仍然是被動的,搜尋引擎一直被動的接受使用者的輸入,根據輸入來回傳結果,搜尋引擎沒有主動去問使用者你到底要找什麼。但在人和人的溝通過程中,當你被問到一個問題的時候,有時候你會主動地來反問一些問題來做澄清。
例如必應搜尋裡面,如果Query是“Headaches”,頭痛。它會問你“What do want to know about this medical condition”“你想知道關於這個疾病的什麼事”,比如說是它的症狀、還是治療、還是診斷、還是成因或者誘因。因為Headaches本身是非常廣泛的一個Query,在這種情況下,系統希望能夠進一步澄清你想找到哪裡的資訊。
這裡面臨兩個問題,第一是候選項,就是想讓使用者去澄清到哪個特定的項。第二是澄清問題,搜尋引擎主動反過來問用戶的這個問題。而核心詞是澄清問題裡面最至關重要的一部分。
在這方面的探索,第一個是透過查詢日誌和知識庫去給定一個查詢的時候,能夠產生一些澄清的候選項。第二,基於規則可以透過搜尋的結果來預測這個澄清問題的一些核心字。同時也標註一些數據,透過有監督的模型來做這種文字標籤的分類。第三,進一步在這個標註資料的基礎上訓練端到端的生成模型。
個人化
個人化指的是未來的搜尋將以使用者為核心。現在的搜尋引擎,不管是誰來查,返回都是同樣的結果。而這並不能滿足使用者特定化資訊的需求。
現在的個人化搜尋採用的模式,首先透過使用者歷史學習使用者熟悉的知識訊息,對查詢進行個人化實體消歧。其次,透過消歧後的查詢實體增強個人化配對。
此外我們在基於產品品類建立使用者的多興趣模型方面也做了探索,假設使用者可能有自己在所有品類上的一些品牌(規格、型號)傾向性,但是這個傾向性不能簡單的通過一兩個向量來去刻畫。應該根據使用者購物的歷史,建立知識圖譜,透過知識圖譜針對不同品類學習不同的興趣,最終做更精準的個人化搜尋的結果推送。
也可以用同樣的個人化方法去做聊天機器人,核心想法就是透過使用者歷史對話,學習使用者個人化興趣和語言模式,訓練個人化對話模型,可以模仿(代理)用戶說話。
多模態
現在的搜尋引擎在處理多模態資訊的時候,其實有相當多的限制的。未來用戶獲取的資訊可能不僅僅是一些文字、網頁,還可能包括圖片、影片以及更複雜的結構資訊。所以未來的搜尋引擎在多模態資訊取得上還有很多工作要做。
現在的搜尋引擎在理解或是做跨模態檢索時,也就是給出一個文字的描述,去找它對應的圖片的時候,做得還是有很多缺陷的。類似的搜尋如果遷移到手機上,限制就會更大。
所謂的多模態就是語言、要找的圖像、圖片、影片等模態,映射到統一的一個空間上,這意味著可以透過文字去找圖片,圖片去找文字,圖片去找圖片等。
對此,我們做了大規模多模態的預訓練模型-文瀾。其重點是基於海量的網路圖片和附近文字的弱監督相關性貢獻的資訊訓練出來的。採用雙塔模式,最後訓練的是一個圖片的編碼器和文字的編碼器,這兩個編碼器透過端對端匹配的最佳化學習過程,讓最終的表示向量能夠映射到統一空間中,而不是把圖片的細粒度和文字的細粒度拼接在一起。
這種跨模態的檢索能力,其實不只是端對端給使用者使用web搜尋引擎時提供了更多的空間,同時也可以支援許多應用,例如創作,不管是社群媒體還是文創類,都可以用它來支撐。
富知識
現在的搜尋引擎普遍檢索的主體還是網頁,而未來搜尋引擎處理的單元不僅僅是網頁,應該是以知識為處理的單位,包括返回的結果也應該是高階的知識,而不是一個頁面的列表形式。很多時候用戶其實想透過搜尋引擎來完成一些複雜的資訊需求,故而希望搜尋引擎幫忙分析結果,而不是讓人來一個一個分析。
基於此想法我們建立了分析引擎,相當於是在搜尋引擎的基礎上,能提供深度的文字分析,幫助使用者有效率且快速地獲取高階知識。幫助使用者完成對大規模文件的閱讀和理解,並對其中所包含的關鍵資訊和知識進行抽取、挖掘、匯總,最終透過互動的分析過程,讓使用者對挖掘到的高階知識進行瀏覽和分析,進而為使用者提供決策支援。
例如使用者希望找霧霾相關的訊息,可以直接輸入「霧霾」。富知識模式與傳統的搜尋引擎返回的結果不同,可能返回一個時間軸,告訴用戶關於霧霾的信息在時間軸上的分佈等情況,還會總結出關於霧霾的子話題有哪些、機構有哪些、人物有哪些。當然它也可以像搜尋引擎一樣提供詳細的結果的清單。
這種可以直接提供分析,而且是互動式分析的能力,能夠更好地幫助使用者獲取複雜資訊的能力。提供給使用者的東西不再是簡單的搜尋結果清單。當然這種互動式的多維知識分析,只是一種展示方式,以後還可以做更多的方式,比如我們現在正在做的一件事情就是從檢索到生成(有理有據的)內容。
去索引
現在的搜尋引擎廣泛採用以索引為核心的分階段方式,從大量互聯網的網頁爬回所需內容後構建Index,也就是倒排的索引或稠密的向量索引。使用者的Query來之後,先要做召回,在召回的結果基礎上再做精細化排序。
這個模式有很多弊端,因為要分階段,如果一個階段上出了問題,例如在召回階段沒有找到想要的結果,它排序階段做得再好,也不可能會回傳很好的結果。
在未來的搜尋引擎中,這種結構有可能是會被打破的。全新的想法是使用一個大的模型來取代現在的索引的模式,所有的查詢都可以透過模型來滿足。這就不再需要使用索引了,而是直接透過這種模型回饋想要的結果。
在這個基礎上,可以直接提供結果列表,也可以直接提供使用者所需的答案,甚至答案還可以是圖像,將各模態較好的融合在一起。去掉索引,直接透過模型來回饋結果,就意味著這個模型能夠直接return或直接返回文檔的標識符,文檔標識符是一定要嵌入到模型中的,建構以模型為中心的搜尋。
總結
現在的搜尋引擎廣泛採用關鍵字為輸入,文件清單為輸出的這種簡單模式。在滿足人們複雜資訊獲取需求方面,已經存在了一些問題。未來的搜尋引擎將會是對話式的、是個人化的、是以使用者為中心的、是能夠破除千人一面的。同時能夠處理多模態的訊息,能夠處理知識、能夠返回知識。在架構上,未來也一定會突破現有的採用倒排索引或稠密向量索引的這種以索引為核心的模式,逐步過渡到以模型為核心的模式。
來賓介紹
#竇志成,中國人民大學高瓴人工智慧學院副院長,北京智源人工智慧研究院「智慧資訊檢索與挖掘」方向專案經理。 2008加入微軟亞洲研究院,從事網路搜尋的相關工作,培養了豐富的資訊檢索技術研發經驗。 2014年開始在中國人民大學任教,主要研究方向為智慧資訊檢索及自然語言處理。曾獲國際資訊檢索大會(SIGIR 2013)最佳論文提名獎,亞洲資訊檢索大會(AIRS 2012)最佳論文獎,全國資訊檢索學術會議(CCIR 2018、CCIR 2021)最佳論文獎。擔任SIGIR 2019的程序委員會主席(短文),資訊檢索評測會議NTCIR-16程序委員會主席,中國電腦學會大數據專家委員會副秘書長等職務。近兩年主要關注個人化和多樣化搜尋排序、互動式和對話式搜尋模型、以資訊檢索為導向的預訓練方法、搜尋和推薦模型的可解釋性、個人化產品搜尋等。
以上是未來,我們將如何進行資訊搜尋?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在
