目錄
比「大海撈針」更精準
GPT-4與Kimi難分高下
One More Thing
首頁 科技週邊 人工智慧 「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

Apr 02, 2024 am 11:55 AM
測試 開源

大模型長文字能力測試,又有新方法了!

騰訊MLPD實驗室,以全新開源的「數星星」#方法取代了傳統的「大海撈針」測試。

相較之下,新方法更著重於對模型處理長依賴關係能力的考察,對模型的評估更全面精準。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

利用這種方法,研究人員對GPT-4和國內知名的Kimi Chat進行了「數星星」測試。

結果,在不同的實驗條件下,兩款模型各有勝負,但都體現出了很強的長文本能力。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

△橫軸係以2為底的對數座標

那麼,「數星星」究竟是怎樣的一種測試呢?

比「大海撈針」更精準

首先,研究人員選擇了一段長篇文字做為上下文,測試過程中長度逐漸遞增,最大為128k。

然後,根據不同的測試難度需求,整段文字會被分割成N段,並向其中插入M個包含「星星」的句子#。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

實驗過程中,研究人員選擇了《紅樓夢》作為上下文文本,向其中加入了「小企鵝數了x顆星星」這樣的句子,每個句子中的x都各不相同。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

然後,模型會被要求找到所有這樣的句子,並以JSON格式輸出其中所有的數字#,且只輸出數字。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

得到模型的輸出之後,研究者會將這些數字和Ground Truth進行對比,最後計算出模型輸出的正確率。

比起先前的「大海撈針」測試,這種「數星星」的方法更能體現出模型處理長依賴關係能力。

簡而言之,「大海撈針」中插入多個「針」就是插入多個線索,然後讓大模型找到並串聯推理多個線索,並獲得最終答案。

但實際的「大海撈多針」測試中,模型並不需要找到所有「針」才能答對問題,甚至有時只需要找到最後一根就可以了。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

但「數星星」則不同——因為每句話中「星星」的數量都不一樣,#模型必須把所有星星都找到才能把問題答對

所以,雖然看似簡單,但至少在多「針」任務上,「數星星」對模型長文字能力有著更為精準的體現。

那麼,有哪些大模型最先接受了「數星星」測試呢?

GPT-4與Kimi難分高下

參加這場測試的大模型分別是GPT-4和國內以長文本能力而知名的大模型Kimi。

在「星星」數量和文字粒度均為32時,GPT-4的準確率達到了96.8%,Kimi則有86.4%。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

但當「星星」增加到64顆時,Kimi則以93.1%的準確率超過了準確率為89.7%的GPT-4.

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

減少到16時,也是Kimi的表現略勝GPT-4。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

而分割的顆粒度也會對模型的表現造成一些影響,在「星星」同樣出現32次時,顆粒度從32變為16,GPT-4的成績有所上升,而Kimi則有所下降。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

要注意的是,在以上的測試中,「星星」的數量是依次遞增的,但研究人員很快就發現,這種情況下大模型很喜歡「偷懶」-

當模型發現星星數量是遞增的時候,即使區間內的數字是隨機生成,也會造成大模型的敏感度增加。

例如:模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更敏感

所以,研究人員又特意將數字的順序進行了打亂,重新進行了一次測試。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

結果在打亂之後,GPT-4和Kimi的表現都出現了明顯下降,不過準確率仍在60%以上,兩者相差8.6個百分點。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

One More Thing

這個方法的準確度可能還需要時間檢驗,但不得不說名字起得真的很有一手。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

△英文系同名歌曲Counting Stars歌詞

網友也不禁感嘆,現在關於大模型的研究,真的是越來越魔幻了。

「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠

但魔幻的背後,也體現出人們對於大模型長語境處理能力和效能的了解還不夠充分。

就在前幾天,先後有多家大模型廠商宣布推出能夠處理超長文本的模型(雖然不全是基於上下文窗口實現),最高可達上千萬,但實際表現還是未知數。

而Counting Stars的出現,或許剛好有助於我們了解這些模型的真實表現。

那麼,你還想看看哪些模型的測驗成績呢?

論文網址:https://arxiv.org/abs/2403.11802
GitHub:https://github.com/nick7nlp/Counting-Stars

#

以上是「大海撈針」out! 「數星星」成測長文本能力更精準方法,來自鵝廠的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

十個推薦開源免費文字標註工具 十個推薦開源免費文字標註工具 Mar 26, 2024 pm 08:20 PM

文字標註工作是將標籤或標記與文字中特定內容相對應的工作。其主要目的是為文本提供額外的信息,以便進行更深入的分析和處理,尤其是在人工智慧領域。文字標註對於人工智慧應用中的監督機器學習任務至關重要。用於訓練AI模型,有助於更準確地理解自然語言文本訊息,並提高文本分類、情緒分析和語言翻譯等任務的表現。透過文本標註,我們可以教導AI模型識別文本中的實體、理解上下文,並在出現新的類似數據時做出準確的預測。本文主要推薦一些較好的開源文字標註工具。 1.LabelStudiohttps://github.com/Hu

15個值得推薦的開源免費圖片標註工具 15個值得推薦的開源免費圖片標註工具 Mar 28, 2024 pm 01:21 PM

圖像標註是將標籤或描述性資訊與圖像相關聯的過程,以賦予圖像內容更深層的含義和解釋。這個過程對於機器學習至關重要,它有助於訓練視覺模型以更準確地識別圖像中的各個元素。透過為圖像添加標註,使得電腦能夠理解圖像背後的語義和上下文,從而提高對圖像內容的理解和分析能力。影像標註的應用範圍廣泛,涵蓋了許多領域,如電腦視覺、自然語言處理和圖視覺模型具有廣泛的應用領域,例如,輔助車輛識別道路上的障礙物,幫助疾病的檢測和診斷透過醫學影像識別。本文主要推薦一些較好的開源免費的圖片標註工具。 1.Makesens

furmark怎麼看?-furmark怎麼算合格? furmark怎麼看?-furmark怎麼算合格? Mar 19, 2024 am 09:25 AM

furmark怎麼看?1、在主介面中設定“運行模式”和“顯示模式”,還能調整“測試模式”,點擊“開始”按鈕。 2.等待片刻後,就會看到測試結果,包含了顯示卡各種參數。 furmark怎麼算合格? 1.用furmark烤機,半小時左右看一下結果,基本上在85度左右徘徊,峰值87度,室溫19度。大號機箱,5個機殼風扇口,前置兩個,上置兩個,後置一個,不過只裝了一個風扇。所有配件都沒有超頻。 2.一般情況下,顯示卡的正常溫度應在「30-85℃」之間。 3.就算是大夏天周圍環境溫度過高,正常溫度也是「50-85℃

建議:優秀JS開源人臉偵測辨識項目 建議:優秀JS開源人臉偵測辨識項目 Apr 03, 2024 am 11:55 AM

人臉偵測辨識技術已經是一個比較成熟且應用廣泛的技術。而目前最廣泛的網路應用語言非JS莫屬,在Web前端實現人臉偵測辨識相比後端的人臉辨識有優勢也有弱勢。優點包括減少網路互動、即時識別,大大縮短了使用者等待時間,提高了使用者體驗;弱勢是:受到模型大小限制,其中準確率也有限。如何在web端使用js實現人臉偵測呢?為了實現Web端人臉識別,需要熟悉相關的程式語言和技術,如JavaScript、HTML、CSS、WebRTC等。同時也需要掌握相關的電腦視覺和人工智慧技術。值得注意的是,由於Web端的計

阿里7B多模態文件理解大模型拿下新SOTA 阿里7B多模態文件理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模態文件理解能力新SOTA!阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5,針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰,提出了一系列解決方案。話不多說,先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式:不同樣式的圖表都可以:更細節的文字識別和定位也能輕鬆搞定:還能對文檔理解給出詳細解釋:要知道,“文檔理解”目前是大語言模型實現落地的一個重要場景,市面上有許多輔助文檔閱讀的產品,有的主要透過OCR系統進行文字識別,配合LLM進行文字理

單卡跑Llama 70B快過雙卡,微軟硬生把FP6搞到A100哩 | 開源 單卡跑Llama 70B快過雙卡,微軟硬生把FP6搞到A100哩 | 開源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮點數量化精度,不再是H100的「專利」了!老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支援的條件下,硬生在A100上跑起FP6。測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且比後者擁有更高的精度。在此基礎之上,還有端到端的大模型支持,目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。一名

1.3ms耗時!清華最新開源行動裝置神經網路架構 RepViT 1.3ms耗時!清華最新開源行動裝置神經網路架構 RepViT Mar 11, 2024 pm 12:07 PM

论文地址:https://arxiv.org/abs/2307.09283代码地址:https://github.com/THU-MIG/RepViTRepViT在移动端ViT架构中表现出色,展现出显著的优势。接下来,我们将探讨本研究的贡献所在。文中提到,轻量级ViTs通常比轻量级CNNs在视觉任务上表现得更好,这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而,轻量级ViTs和轻量级CNNs之间的架构差异尚未得到充分研究。在这项研究中,作者们通过整合轻量级ViTs的有效

剛剛發布!一鍵產生動漫風格圖片的開源模型 剛剛發布!一鍵產生動漫風格圖片的開源模型 Apr 08, 2024 pm 06:01 PM

向大家介紹一個最新的AIGC開源專案-AnimagineXL3.1。這個專案是動漫主題文字到圖像模型的最新迭代,旨在為用戶提供更優化和強大的動漫圖像生成體驗。在AnimagineXL3.1中,開發團隊專注於優化了幾個關鍵方面,以確保模型在效能和功能上達到新的高度。首先,他們擴展了訓練數據,不僅包括了先前版本中的遊戲角色數據,還加入許多其他知名動漫系列的數據納入訓練集中。這項舉措豐富了模型的知識庫,使其能夠更全面地理解各種動漫風格和角色。 AnimagineXL3.1引入了一組新的特殊標籤和美學標

See all articles