知識圖譜:大模型的理想搭檔
大型語言模型(LLM)具有產生流暢和連貫文字的能力,為人工智慧的對話、創意寫作等領域帶來了新的前景。然而,LLM也存在一些關鍵限制。首先,它們的知識僅限於從訓練資料中辨識出的模式,缺乏對世界的真正理解。其次,推理能力有限,不能進行邏輯推理或從多個資料來源融合事實。面對更複雜、更開放的問題時,LLM的回答可能變得荒謬或矛盾,被稱為「幻覺」。因此,儘管LLM在某些方面非常有用,但在處理複雜問題和真實世界情境時,仍存在一定的限制。
為了彌補這些差距,近年來出現了檢索增強生成(RAG)系統,其核心思想是透過從外部來源檢索相關知識來為LLM提供上下文,以便做出更明智的反應。目前的系統大多使用向量嵌入的語意相似度來檢索段落,然而,這種方法有其自身的缺點,例如缺乏真正的相關性、無法聚合事實,以及缺乏推理鏈。而知識圖譜的應用領域正能解決這些問題。知識圖譜是一種對現實世界實體和關係進行結構化表達的方式。透過編碼上下文事實之間的相互聯繫,知識圖譜克服了純向量搜尋的缺陷,並且透過圖搜尋可以進行複雜的多層推理,跨越多種資訊來源。
向量嵌入和知識圖譜的結合可以提升LLM的推理能力,增強其準確性和可解釋性。這種合作關係將表層語義與結構化知識和邏輯完美融合,使得LLM能夠同時應用統計學習和符號表示。
圖片
1. 向量搜尋的限制
大多數RAG系統透過文件集合中段落的向量搜尋來尋找LLM的上下文。這個過程有幾個關鍵步驟。
- 文字編碼: 系統使用像 BERT 這樣的嵌入模型將文字從語料庫中的段落編碼成向量表示。每篇文章都被壓縮成一個密集的向量來捕捉語意。
- 索引: 這些通道向量在高維向量空間中進行索引,以實現快速的最近鄰搜尋。流行的方法包括 Faiss 和 Pinecone等。
- 查詢編碼: 使用者的查詢語句也被編碼為使用相同嵌入模型的向量表示。
- 相似性檢索: 一個最近鄰搜尋在索引的段落中運行,根據距離指標(如餘弦距離)找到與查詢向量最接近的段落。
- 傳回段落結果: 傳回最相似的段落向量,擷取原始文字為 LLM 提供上下文。
這種管線有幾個主要的限制:
- 通道向量可能無法完全捕捉查詢的語義意圖,嵌入不能表示某些推理連接,重要的上下文最終會被忽略。
- 把整個段落壓縮成單一向量會失去細微差別,嵌入在句子中的關鍵相關細節會變得模糊。
- 配對是為每個段落獨立完成的,沒有跨越不同段落的聯合分析,缺乏連結事實和得出需要總結的答案。
- 排名和匹配過程是不透明的,沒有透明度來解釋為什麼某些段落被認為更相關。
- 只有語意相似性被編碼,沒有表示關係,結構,規則和其他不同的連結之間的內容。
- 對語意向量相似性的單一關注導致檢索缺乏真正的理解。
隨著查詢變得越來越複雜,這些限制在無法對檢索到的內容進行推理方面變得越來越明顯。
2. 整合知識圖譜
知識圖譜以實體和關係為基礎,透過相互連結的網絡傳遞訊息,透過複雜推理提高檢索能力。
- 明確的事實,事實直接作為節點和邊捕獲,而不是壓縮成不透明的向量,這保留了關鍵的細節。
- 上下文細節,實體包含了豐富的屬性,如提供關鍵上下文的描述、別名和元資料等。
- 網路結構表達了關係建模實體之間的真實連結、擷取規則、層次結構、時間軸等。
- 多層推理是基於關係遍歷以及連接來自不同來源的事實,可以推導出需要跨多個步驟進行推理的答案。
- 聯合推理透過實體解析連結到同一個現實世界的對象,從而允許進行集體分析。
- 可解釋的相關性,圖形拓撲提供了一種透明度,可以解釋為什麼某些基於連接的事實是相關的。
- 個人化,捕捉使用者屬性、上下文和歷史互動以自訂結果。
知識圖譜不僅僅是單純的匹配,而是透過遍歷圖的過程來收集與查詢相關的上下文事實。可解釋的ranking方法利用圖的拓撲結構,透過編碼結構化事實、關係和上下文來提升檢索能力,從而實現準確的多步驟推理。相對於純向量搜索,這種方法提供了更強的相關性和解釋能力。
3. 利用簡單限制來改進知識圖譜的嵌入
在連續向量空間中嵌入知識圖譜是目前的研究熱點。知識圖譜使用向量嵌入來表示實體和關係,以支援數學運算。此外,額外的約束可以進一步優化表示。
- 非負性約束,將實體嵌入限制為0到1之間的正值會導致稀疏性,明確地模擬了它們的正性質,並提高了可解釋性。
- 蘊涵約束,將對稱、反轉、合成等邏輯規則直接編碼為關係嵌入的約束來強制這些模式。
- 置信度建模,帶有鬆弛變數的軟約束可以根據證據對邏輯規則的置信度進行編碼。
- 正則化,施加了有用的歸納偏差,只增加了一個投影步驟,而沒有使最佳化變得更加複雜。
- 可解釋性,結構化限制為模型所學習的模式提供了透明度,這解釋了推理過程。
- 精確性,約束透過將假設空間減少到符合要求的表示方法來提高泛化能力。
簡單通用的限制增加到知識圖譜的嵌入,從而產生更優化、更易於解釋和邏輯相容的表示。嵌入獲得模仿真實世界結構和規則的歸納偏差,這對更準確和可解釋的推理並沒有引入太多額外的複雜性。
4. 整合多種推理架構
知識圖譜需要推理來得出新的事實,回答問題,並做出預測,不同的技術有著互補的優勢:
邏輯規則將知識表述為邏輯公理和本體,透過定理證明進行合理和完整的推理,實現有限的不確定性處理。而圖嵌入用於向量空間運算的嵌入式知識圖結構,能處理不確定性但缺乏表達性。神經網路結合向量查找具有自適應性,但推理不透明。透過對圖結構和資料的統計分析能夠自動建立規則,但品質不確定。混合管線透過邏輯規則進行編碼明確的約束,嵌入提供向量空間操作,神經網路透過聯合訓練獲得融合的效益。使用基於案例、模糊或機率邏輯的方法來增加透明度,表達不確定性和對規則的置信度。透過將推論的事實和學到的規則具體化到圖譜中來擴展知識,提供回饋循環。
關鍵是確定所需的推理類型,並將它們映射到適當的技術,結合邏輯形式、向量表示和神經元組件的可組合管線提供了健壯性和可解釋性。
4.1 保持 LLM 的資訊流
為 LLM 檢索知識圖譜中的事實會引入資訊瓶頸,需要透過設計維持相關性。將內容分成小塊可以提高隔離性,但會失去周圍的上下文,這會阻礙分塊之間的推理。生成區塊的摘要可以提供更簡潔的上下文,關鍵細節被壓縮以突出顯示意義。將附加摘要、標題、標記等作為元數據,以維護有關來源內容的上下文。將原始查詢重寫為更詳細的版本,可以更好地針對 LLM 的需求進行檢索。知識圖譜的遍歷功能保持了事實之間的聯繫,維護上下文。按時間順序或按相關性排序可以優化 LLM 的資訊結構,將隱式知識轉換為 LLM 所陳述的顯式事實可以使推理變得更容易。
目標是優化檢索知識的相關性、上下文、結構和顯性表達,以最大限度地提高推理能力。需要在粒度和內聚性之間取得平衡。知識圖關係有助於為孤立的事實建構脈絡。
4.2 解鎖推理能力
知識圖表和嵌入式技術結合起來都有克服對方弱點的優勢。
知識圖譜提供了實體和關係的結構化表達。透過遍歷功能來增強複雜推理能力,處理多層推理;嵌入是在向量空間中為基於相似性的操作編碼信息,支持在一定尺度上進行有效的近似搜索,將潛在模式表面化。聯合編碼為知識圖譜中的實體和關係產生嵌入。圖神經網路透過可微訊息傳遞對圖結構和嵌入元素進行操作。
知識圖譜首先收集結構化知識,然後嵌入聚焦在相關內容的搜尋和檢索,外顯知識圖關係為推理過程提供了可解釋性。推論知識可以擴展為圖譜,GNN 提供了連續表示的學習。
這種夥伴關係可以透過模式來辨識!力和神經網路的可擴展性增強了結構化知識的表示。這是推進語言人工智慧需要統計學習和符號邏輯的關鍵。
4.3 以協同過濾改進搜尋
協同過濾利用實體之間的聯繫來加強搜索,一般過程如下:
- 建構一個節點表示實體和以邊表示關係的知識圖譜。
- 為某些關鍵節點屬性(如標題、描述等)產生一個嵌入向量。
- 向量索引ーー建構節點嵌入的向量相似度索引。
- 最近鄰搜尋ーー對於搜尋查詢,尋找具有大多數相似嵌入的節點。
- 協作調整ーー基於節點的連接,使用 PageRank 等演算法傳播和調整相似性分數。
- 邊緣權重ー依據邊緣型別、強度、信賴度等進行權重調整。
- 分數標準化ーー將調整後的分數標準化以保持相對排名。
- 結果重新排序ーー基於調整後協作分數的初始結果重新排序。
- 使用者上下文ーー進一步根據使用者設定檔、歷史記錄和首選項進行調整。
圖片
5. 為RAG 引擎加油-資料飛輪
#建構一個不斷改進的高效能檢索增強生成(RAG)系統可能需要實現資料飛輪。知識圖譜透過提供結構化的世界知識為語言模型開啟了新的推理能力。但是,建立高品質的圖譜仍然具有挑戰性。這就是資料飛輪的用武之地,透過分析系統交互,不斷改進知識圖。
記錄所有系統查詢、回應、分數、使用者操作等數據,提供如何使用知識圖表的可視性,使用數據聚合到表面不良回應,聚類並分析這些回應,以識別表明知識差距的模式。人工回顧那些有問題的系統響應,並將問題追溯到圖譜中缺少的或不正確的事實。然後,直接修改圖表以添加那些缺少的事實數據、改進結構、提高清晰度等。不斷循環完成上述步驟,每次迭代都進一步增強知識圖。
像新聞和社群媒體這樣的串流媒體即時資料來源提供了新資訊的不斷流動,以保持知識圖表的最新性。如果使用查詢產生來識別和填補關鍵的知識空白,就超出了流提供的範圍。發現圖譜中的漏洞,提出問題,檢索缺失的事實,然後加入它們。對於每個循環,透過分析使用模式和修復資料問題,知識圖譜會逐漸增強,改進後的圖增強了系統的效能。
這個飛輪過程使得知識圖譜和語言模型能夠基於來自現實世界所使用的回饋進行協同演化。圖譜被積極地修改以適應模型的需要。
總之,資料飛輪透過分析系統交互,為知識圖譜的持續、自動改進提供了一個支架。這為依賴圖表的語言模型的準確性、相關性和適應性提供了動力。
6. 小結
人工智慧需要結合外部知識和推理,這就是知識圖譜的用武之地。知識圖譜提供了真實世界實體和關係的結構化表示,編碼了關於世界的事實以及它們之間的連結。透過遍歷那些相互關聯的事實,這使得複雜的邏輯推理可以跨越多個步驟
#然而,知識圖譜有其自身的局限性,如稀疏性和缺乏不確定性處理,這就是圖譜嵌入的幫助所在。透過在向量空間中編碼知識圖譜元素,嵌入允許從大型語料庫到潛在模式表徵化的統計學習,也支援高效的基於相似性的操作。
無論是知識圖譜或向量嵌入本身都不足以形成類人的語言智能,但是,它們共同提供了結構化知識表示、邏輯推理和統計學習的有效結合,而知識圖譜則涵蓋了神經網路模式辨識能力之上的符號邏輯和關係,像圖神經網路這樣的技術透過資訊傳遞圖結構和嵌入進一步統一了這些方法。這種共生關係使得系統既能利用統計學習,又能利用符號邏輯,結合了神經網路和結構化知識表示的優勢。
在建立高品質的知識圖譜、基準測試、雜訊處理等仍然存在著挑戰。但是,跨越符號和神經網路的混合技術仍然是前景光明的。隨著知識圖譜和語言模型的不斷發展,它們的整合將開啟了可解釋AI 的新領域。
以上是知識圖譜:大模型的理想搭檔的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本站6月27日訊息,剪映是由位元組跳動旗下臉萌科技開發的一款影片剪輯軟體,依託於抖音平台且基本面向該平台用戶製作短影片內容,並相容於iOS、安卓、Windows 、MacOS等作業系統。剪映官方宣布會員體系升級,推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點、智慧包裝、數位人合成等。價格方面,剪映SVIP月費79元,年費599元(本站註:折合每月49.9元),連續包月則為59元每月,連續包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗,向已訂閱了原版VIP

透過將檢索增強生成和語意記憶納入AI編碼助手,提升開發人員的生產力、效率和準確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設計助理自然有幫助,但由於依賴對軟體語言和編寫軟體最常見模式的整體理解,因此常常無法提供最相關和正確的程式碼建議。這些編碼助手產生的代碼適合解決他們負責解決的問題,但通常不符合各個團隊的編碼標準、慣例和風格。這通常會導致需要修改或完善其建議,以便將程式碼接受到應

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

大型語言模型(LLM)是在龐大的文字資料庫上訓練的,在那裡它們獲得了大量的實際知識。這些知識嵌入到它們的參數中,然後可以在需要時使用。這些模型的知識在訓練結束時被「具體化」。在預訓練結束時,模型實際上停止學習。對模型進行對齊或進行指令調優,讓模型學習如何充分利用這些知識,以及如何更自然地回應使用者的問題。但是有時模型知識是不夠的,儘管模型可以透過RAG存取外部內容,但透過微調使用模型適應新的領域被認為是有益的。這種微調是使用人工標註者或其他llm創建的輸入進行的,模型會遇到額外的實際知識並將其整合

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集,涵蓋了醫學、化學、生物等領域,但這些數據集仍有一些不足之處。其一,資料形式較為單一,大多數為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

本站8月1日消息,SK海力士今天(8月1日)發布博文,宣布將出席8月6日至8日,在美國加州聖克拉拉舉行的全球半導體記憶體峰會FMS2024,展示諸多新一代產品。未來記憶體和儲存高峰會(FutureMemoryandStorage)簡介前身是主要面向NAND供應商的快閃記憶體高峰會(FlashMemorySummit),在人工智慧技術日益受到關注的背景下,今年重新命名為未來記憶體和儲存高峰會(FutureMemoryandStorage),以邀請DRAM和儲存供應商等更多參與者。新產品SK海力士去年在

編輯|KX在藥物研發領域,準確有效地預測蛋白質與配體的結合親和力對於藥物篩選和優化至關重要。然而,目前的研究並沒有考慮到分子表面訊息在蛋白質-配體相互作用中的重要作用。基於此,來自廈門大學的研究人員提出了一種新穎的多模態特徵提取(MFE)框架,該框架首次結合了蛋白質表面、3D結構和序列的信息,並使用交叉注意機制進行不同模態之間的特徵對齊。實驗結果表明,該方法在預測蛋白質-配體結合親和力方面取得了最先進的性能。此外,消融研究證明了該框架內蛋白質表面資訊和多模態特徵對齊的有效性和必要性。相關研究以「S
