谷歌新方法ASPIRE:賦予LLM自我評分能力,有效解決「幻覺」問題,超越10倍體積模型
大模型的「幻觉」问题马上要有解了?
威斯康星麦迪逊大学和谷歌的研究人员最近推出ASPIRE系统,使大模型能够自评输出。
如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。
如果系统能够根据评分结果进一步筛选输出内容,例如当评分较低时,大模型可以生成类似"我无法回答此问题"的语句,这可能最大程度地改善幻觉问题。
论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf
ASPIRE能让LLM输出答案以及答案的置信度得分。
研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。
让LLM不仅要回答问题,还要评估这些答案 。
在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。
就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。
这就是ASPIRE的本质,它涉及三个阶段:
(1) 针对特定任务的调优,
(2) 答案采样,
(3) 自我评估学习。
在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。
如果LLM可以成为决策过程中值得信赖的合作伙伴。
只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。
研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。
ASPIRE 的机制
针对特定任务的微调
ASPIRE执行特定于任务的微调以训练适应性参数,同时冻结LLM。
给定生成任务的训练数据集,它会微调预训练的LLM以提高其预测性能。
为此,可以采用参数高效的微调技术(例如,软提示词微调和LoRA)来微调任务上的预训练LLM,因为它们可以有效地通过少量目标获得强泛化任务数据。
具体来说,LLM参数(θ)被冻结,并添加自适应参数进行微调。
仅更新 θ (p) 以最小化标准 LLM 训练损失(例如交叉熵)。
这种微调可以提高选择性预测性能,因为它不仅提高了预测精度,而且还提高了正确输出序列的可能性。
答案取樣
在針對特定任務進行調優後,ASPIRE使用LLM和學習到的為每個訓練問題產生不同的答案,並建立用於自評估學習的資料集。
研究人員的目標是產生具有高可能性的輸出序列。他們使用波束搜尋(Beam Search)作為解碼演算法來產生高似然輸出序列,並使用Rouge-L度量來確定產生的輸出序列是否正確。
自評估學習
#在對每個查詢的高似然輸出進行取樣後,ASPIRE添加自適應參數,並且僅微調
來學習自評估。
由於輸出序列的產生只取決於θ 和,因此凍結θ 和學習到的
可以避免在學習自評估時改變LLM的預測行為-評估。
研究者優化了,使得改編後的LLM可以自己區分正確和錯誤的答案。
在這個框架中,可以用任何參數有效的微調方法來訓練和
。
在這項工作中,研究人員使用軟提示微調,這是一種簡單而有效的機制,用於學習「軟提示」來調節凍結的語言模型,從而比傳統的離散文本提示更有效地執行特定的下游任務。
這種方法背後的核心在於認識到,如果能夠發展出有效激發自我評價的提示,那麼應該可以透過結合有針對性的訓練目標的軟提示微調來發現這些提示。
在訓練#和
後,研究人員透過波束搜尋解碼獲得查詢的預測(beam search decoding)。
然後,研究人員定義一個選擇分數,將產生答案的可能性與學習到的自我評估分數(即,預測對於查詢正確的可能性)結合起來,以做出選擇性預測。
結果
為了證明ASPIRE的效果,研究人員使用各種開放式預訓練Transformer (OPT)模型在三個問答數據集(CoQA、TriviaQA和SQuAD)上進行評估。
通过使用软提示调整训练研究人员观察到LLM的准确性大幅提高。
例如,与使用CoQA和SQuAD数据集的较大预训练OPT-30B模型相比,采用ASPIRE的OPT-2.7B模型表现出更好的性能。
这些结果表明,通过适当的调整,较小的LLM在某些情况下可能有能力匹配或可能超过较大模型的准确性。
当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。
例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。
TriviaQA数据集评估中出现了一个有趣的模式。
虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。
相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。
这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。
研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。
相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。
因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。
以上是谷歌新方法ASPIRE:賦予LLM自我評分能力,有效解決「幻覺」問題,超越10倍體積模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

DDREASE是一種用於從檔案或區塊裝置(如硬碟、SSD、RAM磁碟、CD、DVD和USB儲存裝置)復原資料的工具。它將資料從一個區塊設備複製到另一個區塊設備,留下損壞的資料區塊,只移動好的資料區塊。 ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由於有了ddasue地圖文件,它可以隨時停止和恢復。 DDREASE的其他主要功能如下:它不會覆寫恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具明確執行此操作,則可以將其截斷。將資料從多個檔案或區塊還原到單

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
