給大模型評分的基準可靠嗎? Anthropic來了次大評估
在大模型(LLM)盛行的當下,評估AI 系統成為了重要的一環,在評估過程中都會遇到哪些困難,Anthropic 的一篇文章為我們揭開了答案。
現階段,圍繞著人工智慧(AI)對社會影響的大多數討論歸結為AI 系統的某些屬性,例如真實性、公平性、濫用的可能性等。但現在面臨的問題是,許多研究人員並沒有完全意識到建立穩健可靠的模型評估是多麼困難。現今許多現有的評估套件在各方面的表現都很有限。
AI 新創公司 Anthropic 近日在其官方網站上貼出了一篇文章《評估 AI 系統所面臨的挑戰》。文中寫道,他們花了很長的時間來建立對 AI 系統的評估,以便更好地理解 AI 系統。
文章網址:https://www.anthropic.com/index/evaluating-ai-systems
本文主要從以下幾個面向展開討論:
多項選擇評估(Multiple choice evaluations);
利用第三方評估框架,如BIG-bench 和HELM;
讓工作人員來衡量模型是有益的還是有害的;
讓領域專家對相關威脅進行紅隊分析(red team);
使用生成式AI 來發展評估方法;
#與非營利組織合作,審核模型是否具有危害。
多項選擇評估面臨的挑戰
多項選擇評估看似簡單,其實不然。本文討論了模型在 MMLU(Measuring Multitask Language Understanding)和 BBQ(Bias Benchmark for QA)基準上的挑戰。
MMLU 資料集
MMLU 是一個包含57 個多重選擇問答任務的英文評測資料集,涵蓋數學、歷史、法律等,是目前主流的LLM評測資料集。準確率越高,代表模型的能力越強。但本文發現使用 MMLU 有四個挑戰:
1. 由於 MMLU 被廣泛使用,因而就不可避免的遇到這種情況,模型在訓練過程中更容易將 MMLU 資料納入進來。這和學生在考試前看到題目是一樣的 —— 這是作弊。
2. 對簡單的格式變化敏感,例如將選項從(A) 更改為(1),或在選項和答案之間添加額外的空格,這些做法都可能導致評估準確率約有5% 的浮動。
3. 有些開發人員有針對性的來提升 MMLU 分數,例如少樣本學習或思考鏈推理。因此,在比較各實驗室的 MMLU 分數時必須非常小心。
4.MMLU 可能沒有經過仔細的校對 —— 有研究者在 MMLU 中發現了標籤錯誤或無法回答的例子。
由於上述問題,因而在進行這種簡單且標準化的評估時,有必要事先做出判斷和思考。本文表明,在使用 MMLU 中遇到的挑戰通常也適用於其他類似的多項選擇評估。
BBQ
多項選擇評估也可以測量一些 AI 危害。具體而言,Anthropic 的研究者為了在自家模型 Claude 中衡量這些危害,他們使用了 BBQ 基準(用於評估模型對人群偏見的常用基準)。在將此基準與幾個類似的評估進行比較後,本文才確信 BBQ 提供了一個很好的衡量社會偏見的方法。這項工作花了他們幾個月的時間。
本文表示,實施 BBQ 比預期困難得多。首先是找不到一個可用的 BBQ 開源實現,Anthropic 最好的工程師花了一個星期的時間來執行和測試評估。與 MMLU 中以準確率評估不同,BBQ 中的 bias 得分需要細微差別和經驗來定義、計算和解釋。
BBQ bias 得分範圍從 - 1 到 1,其中 1 表示有明顯的刻板偏見,0 表示沒有偏見,-1 表示有明顯的反刻板偏見。在實現 BBQ 之後,本文發現一些模型 bias 得分為 0,這一結果也讓研究者感到樂觀,表明他們在減少有偏見的模型輸出方面取得了進展。
第三方評估框架
最近,第三方一直在積極開發評估套件。到目前為止,Anthropic 已經參與了其中的兩個計畫:BIG-bench 和史丹佛大學的 HELM(Holistic Evaluation of Language Models)。儘管第三方評估看起來很有用,但這兩個項目都面臨新的挑戰。
BIG-bench
BIG-bench 包含 204 項評估,由 450 多位研究者合作完成,涵蓋從科學到社會推理的一系列主題。 Anthropic 表示他們在使用這個基準時遇到了一些挑戰:為了安裝 BIG-bench,他們耗費了大量的時間。 BIG-bench 不像 MMLU 那樣即插即用 —— 它甚至比使用 BBQ 更多的努力來實施。
BIG-bench 無法有效的擴展,想要全部完成 204 項評估具有很大的挑戰性。因而需要重新編寫,以便與使用的基礎設施很好地配合,工作量龐大。
此外,在實施過程中,本文發現評估中存在一些 bug,使用起來非常不便利,因此 Anthropic 的研究人員在這次實驗後放棄了它。
HELM:自上而下地策劃一組評估
BIG-bench 是一項「自下而上」的工作,任何人都可以提交任何任務,然後由一組專家組織者進行有限的審查。而 HELM 則採用「自上而下」的方法,由專家決定用什麼任務來評估模型。
具體來說,HELM 在推理場景、含虛假資訊場景等多個情境中評估模型,採用準確度、穩健性、公平性等標準指標。 Anthropic 為 HELM 開發人員提供 API 存取權限,以便在其模型上執行基準測試。
相比於 BIG-bench,HELM 有兩個優勢:1)它不需要進行大量的工程工作,2)可以依靠專家來選擇和解釋特定的高品質評估。
然而,HELM 也帶來了一些挑戰。適用於評估其他模型的方法不一定適用於 Anthropic 的模型,反之亦然。例如,Anthropic 的 Claude 系列模型經過訓練,遵循特定的文字格式,稱為 Human/Assistant 格式。 Anthropic 內部評估其模型時會遵循這種特定格式。如果不遵循這種格式,Claude 有時會給出不尋常的回答,從而使標準評估指標的結果不太可信。
此外,HELM 需要很長的時間才能完成,評估新模型可能需要幾個月的時間,並且需要與外部各方進行協調和溝通。
人工智慧系統是為了與人進行開放式動態互動而設計的,那麼如何對模型進行更接近現實應用的評估?
眾包人員進行A/B 測試
目前,領域內主要(但不完全)依賴一種基本類型的人類評估- 在眾包平台上進行A/B 測試,人們在其中與兩個模型進行開放式對話,並從模型A 或B 中選擇響應更有幫助或更無害,根據模型的有用性或無害性對模型進行排名。這種評估方法的優點是與現實環境相對應,並允許對不同的模型進行排名。
然而,這種評估方法有一些局限性,實驗運行起來既昂貴又耗時。
首先,這種方法需要與第三方眾包平台合作並為其付費,為模型建立自訂Web 介面,為A/B 測試人員設計詳細的說明,還要分析和儲存結果數據,並解決僱用眾包人員帶來的道德挑戰。
在無害性測試情況下,實驗也存在使人們接觸有害輸出的風險。人類評估的結果也可能因人類評估者的特徵而有很大差異,包括人類評估者的創造力水平、動機以及識別所測試系統潛在缺陷的能力。
此外,有用和無害之間存在固有的張力。系統可以透過提供無用的回應(例如“抱歉,我無法幫助您”)來降低有害性。
有用與無害之間的正確平衡是什麼?什麼指標數值顯示模型夠有用且無害?諸多問題需要領域內研究者做更多工作來找到答案。
了解更多內容,請參考原文。
原文連結:https://www.anthropic.com/index/evaluating-ai-systems
以上是給大模型評分的基準可靠嗎? Anthropic來了次大評估的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au
