禁止大型語言模型胡編亂造，給點外部知識，推理可靠的很-人工智慧-PHP中文網

大型語言模型(LLM) 已透過In-context Learning 在各種複雜任務上展現出卓越的性能，並且無需針對特定任務進行訓練或微調，近期prompt 和解碼方面取得的進展也使LLM 解決複雜推理任務變成了現實。

然而，LLM 可能會儲存過時、不全面或不正確的知識，要將 LLM 成功部署到實際應用中，外部知識來源（例如維基百科）至關重要。先前，人們嘗試將知識用於較小的語言模型 (LM)，例如 T5、BERT 和 RoBERTa，但這些方法通常需要額外的訓練或微調，成本高昂，對於 LLM 來說完全不切實際。

基於此，來自羅徹斯特大學、騰訊AI Lab 和賓夕法尼亞大學的研究者聯合提出了一種稱為Rethinking with Retrieval (RR) 的後處理方法，以在LLM 中利用外部知識。

禁止大型語言模型胡編亂造，給點外部知識，推理可靠的很

論文網址：https://arxiv.org/pdf/2301.00303v1.pdf

該研究的思路是首先使用思維鏈(chain-of-thought，CoT) prompting 方法產生一組不同的推理路徑，類似於Wang et al. (2022) 的方法。然後研究使用這些路徑中的每個推理步驟來檢索相關的外部知識，讓 RR 方法可以提供更合理的解釋和更準確的預測。

本研究使用GPT-3 175B 和幾種常見的外部知識來源（維基百科、維基數據、WordNet 和Conceptnet）來評估RR 方法在三個複雜推理任務上的有效性，包括常識推理、時序推理和表格推理。實驗結果表明，無需額外的訓練或微調，RR 在這三項任務上始終優於其他方法，這表明 RR 方法在利用外部知識來提高 LLM 性能方面具有很大優勢。

利用檢索進行重新思考

實際上，儘管 LLM 已準確地捕捉了回答問題所需的要素，但這些模型有時還是會產生錯誤的結果。這種現象說明LLM 儲存和檢索知識的方式存在一些問題，包括：

#預訓練語料庫中存在過時、不正確或缺失的相關知識；
預先訓練時相關知識的儲存有錯誤；
#推理階段對相關知識的錯誤檢索。

RR 方法的大致想法如下：給定一個輸入問題Q，RR 方法先利用思考鏈（chain-of though）prompting 產生一組不同的推理路徑R_1、R_2、…、R_N，其中每個推理路徑R_i 由解釋E_i 和跟在其後的預測P_i 組成，然後再從合適的知識庫KB 中檢索相關知識K_1、…、K_M 來支持每個推理路徑中的解釋，並選擇最符合該知識的預測禁止大型語言模型胡編亂造，給點外部知識，推理可靠的很。

思考鏈（CoT）prompting。與標準 prompting 明顯不同，CoT prompting 包括在 prompting 中進行逐步推理實例演示來產生一系列捕獲推理過程的短句。

例如，給定輸入問題：「亞里斯多德使用筆記型電腦嗎？」CoT prompting 旨在產生完整的推理路徑：

CoT prompting 的推理過程為：「亞里斯多德死於公元前322 年。第一台筆記型電腦於1980 年發明。因此，亞里斯多德沒有使用筆記型電腦。所以答案是no。 ”而非簡單地輸出“No”。

對不同的推理路徑取樣。與Wang et al. (2022) 相似，該研究對一組不同的推理路徑R_1、R_2、…、R_N 進行了採樣，而不是像Wei et al. (2022) 那樣只考慮最優比例路徑（greedy path）。對於「亞里斯多德是否使用筆記型電腦？」這個問題，可能的推理路徑如下：

(R_1) 亞里斯多德死於 2000 年。第一台筆記型電腦發明於 1980 年。因此，亞里斯多德使用過筆記型電腦。所以該問題的答案為是。

(R_2) 亞里斯多德於西元前 322 年去世。第一台筆記型電腦發明於 2000 年。因此，亞里斯多德沒有使用過筆記型電腦。所以答案為否。

知識檢索。不同的知識庫可以用來處理不同的任務。例如，為了解決「亞里斯多德使用筆記型電腦了嗎？」這個問題，我們可以使用維基百科作為外部知識庫 KB。資訊檢索技術可用於基於分解的推理步驟從維基百科中檢索相關知識 K_1、……K_M。理想情況下，針對此問題我們可以從維基百科中獲得以下兩段內容：

(K_1) 亞里斯多德（公元前384 至公元前322 年）是古希臘古典時期的希臘哲學家和博學大師

(K_2) 第一台筆記型電腦Epson HX-20 於1980 年發明…

#忠實的推理。我們可以使用函數 f_KB（R_i）來估算每個推理路徑 R_i 的置信度，該函數建立在從知識庫 KB 檢索的相關知識 K_1、…、K_M 基礎之上。最終的預測可以透過運用以下推論過程來獲得：

禁止大型語言模型胡編亂造，給點外部知識，推理可靠的很

實驗評估

本節中，研究介紹了RR 在三個複雜推理任務上的評估：常識推理、時序推理和表格推理。

實驗設定。在所有實驗中，除非另有說明，研究都使用 GPT-3 text-davinci-002。實驗完成期間產生的最大 token 數量被設定為 256，zero-shot、few-shot 以及 chain-of-thought prompting，溫度參數（temperature）固定設定為 0。

結果。如表 1 所示，本文提出的方法 RR，在所有三個推理任務上始終優於所有基準，而無需額外的訓練或微調。這些結果凸顯出了 RR 在利用外部知識來提高 LLM 表現的有效性。

禁止大型語言模型胡編亂造，給點外部知識，推理可靠的很

該研究在 StrategyQA 資料集上展示了具有 CoT prompting 方法的關於 GPT-3 的分析。在仔細檢查 GPT-3 的輸出後，研究觀察到 RR 可以為許多問題提供合理的解釋和正確的預測。例如，當給出「喬治亞州的奧爾巴尼會在紐約州的奧爾巴尼之前先達到十萬名住戶嗎？」這個問題時，GPT-3 產生了以下輸出：

禁止大型語言模型胡編亂造，給點外部知識，推理可靠的很