「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠-人工智慧-PHP中文網

比「大海撈針」更精準

GPT-4與Kimi難分高下

One More Thing

首頁

科技週邊

人工智慧

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

PHPz

Apr 02, 2024 am 11:55 AM

測試開源

大模型長文字能力測試，又有新方法了！

騰訊MLPD實驗室，以全新開源的「數星星」#方法取代了傳統的「大海撈針」測試。

相較之下，新方法更著重於對模型處理長依賴關係能力的考察，對模型的評估更全面精準。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

利用這種方法，研究人員對GPT-4和國內知名的Kimi Chat進行了「數星星」測試。

結果，在不同的實驗條件下，兩款模型各有勝負，但都體現出了很強的長文本能力。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

△橫軸係以2為底的對數座標

那麼，「數星星」究竟是怎樣的一種測試呢？

比「大海撈針」更精準

首先，研究人員選擇了一段長篇文字做為上下文，測試過程中長度逐漸遞增，最大為128k。

然後，根據不同的測試難度需求，整段文字會被分割成N段，並向其中插入M個包含「星星」的句子#。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

實驗過程中，研究人員選擇了《紅樓夢》作為上下文文本，向其中加入了「小企鵝數了x顆星星」這樣的句子，每個句子中的x都各不相同。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

然後，模型會被要求找到所有這樣的句子，並以JSON格式輸出其中所有的數字#，且只輸出數字。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

得到模型的輸出之後，研究者會將這些數字和Ground Truth進行對比，最後計算出模型輸出的正確率。

比起先前的「大海撈針」測試，這種「數星星」的方法更能體現出模型處理長依賴關係能力。

簡而言之，「大海撈針」中插入多個「針」就是插入多個線索，然後讓大模型找到並串聯推理多個線索，並獲得最終答案。

但實際的「大海撈多針」測試中，模型並不需要找到所有「針」才能答對問題，甚至有時只需要找到最後一根就可以了。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

但「數星星」則不同——因為每句話中「星星」的數量都不一樣，#模型必須把所有星星都找到才能把問題答對。

所以，雖然看似簡單，但至少在多「針」任務上，「數星星」對模型長文字能力有著更為精準的體現。

那麼，有哪些大模型最先接受了「數星星」測試呢？

GPT-4與Kimi難分高下

參加這場測試的大模型分別是GPT-4和國內以長文本能力而知名的大模型Kimi。

在「星星」數量和文字粒度均為32時，GPT-4的準確率達到了96.8%，Kimi則有86.4%。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

但當「星星」增加到64顆時，Kimi則以93.1%的準確率超過了準確率為89.7%的GPT-4.

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

減少到16時，也是Kimi的表現略勝GPT-4。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

而分割的顆粒度也會對模型的表現造成一些影響，在「星星」同樣出現32次時，顆粒度從32變為16，GPT-4的成績有所上升，而Kimi則有所下降。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

要注意的是，在以上的測試中，「星星」的數量是依次遞增的，但研究人員很快就發現，這種情況下大模型很喜歡「偷懶」－

當模型發現星星數量是遞增的時候，即使區間內的數字是隨機生成，也會造成大模型的敏感度增加。

例如：模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更敏感

所以，研究人員又特意將數字的順序進行了打亂，重新進行了一次測試。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

結果在打亂之後，GPT-4和Kimi的表現都出現了明顯下降，不過準確率仍在60%以上，兩者相差8.6個百分點。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

One More Thing

這個方法的準確度可能還需要時間檢驗，但不得不說名字起得真的很有一手。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

△英文系同名歌曲Counting Stars歌詞

網友也不禁感嘆，現在關於大模型的研究，真的是越來越魔幻了。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

但魔幻的背後，也體現出人們對於大模型長語境處理能力和效能的了解還不夠充分。

就在前幾天，先後有多家大模型廠商宣布推出能夠處理超長文本的模型（雖然不全是基於上下文窗口實現），最高可達上千萬，但實際表現還是未知數。

而Counting Stars的出現，或許剛好有助於我們了解這些模型的真實表現。

那麼，你還想看看哪些模型的測驗成績呢？

論文網址：https://arxiv.org/abs/2403.11802
GitHub：https://github.com/nick7nlp/Counting-Stars

以上是「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7862

Java教學

1649

CakePHP 教程

1404

Laravel 教程

1300

PHP教程

1242

Related knowledge

十個推薦開源免費文字標註工具 Mar 26, 2024 pm 08:20 PM

文字標註工作是將標籤或標記與文字中特定內容相對應的工作。其主要目的是為文本提供額外的信息，以便進行更深入的分析和處理，尤其是在人工智慧領域。文字標註對於人工智慧應用中的監督機器學習任務至關重要。用於訓練AI模型，有助於更準確地理解自然語言文本訊息，並提高文本分類、情緒分析和語言翻譯等任務的表現。透過文本標註，我們可以教導AI模型識別文本中的實體、理解上下文，並在出現新的類似數據時做出準確的預測。本文主要推薦一些較好的開源文字標註工具。 1.LabelStudiohttps://github.com/Hu

15個值得推薦的開源免費圖片標註工具 Mar 28, 2024 pm 01:21 PM

圖像標註是將標籤或描述性資訊與圖像相關聯的過程，以賦予圖像內容更深層的含義和解釋。這個過程對於機器學習至關重要，它有助於訓練視覺模型以更準確地識別圖像中的各個元素。透過為圖像添加標註，使得電腦能夠理解圖像背後的語義和上下文，從而提高對圖像內容的理解和分析能力。影像標註的應用範圍廣泛，涵蓋了許多領域，如電腦視覺、自然語言處理和圖視覺模型具有廣泛的應用領域，例如，輔助車輛識別道路上的障礙物，幫助疾病的檢測和診斷透過醫學影像識別。本文主要推薦一些較好的開源免費的圖片標註工具。 1.Makesens

furmark怎麼看?-furmark怎麼算合格？ Mar 19, 2024 am 09:25 AM

furmark怎麼看?1、在主介面中設定“運行模式”和“顯示模式”，還能調整“測試模式”，點擊“開始”按鈕。 2.等待片刻後，就會看到測試結果，包含了顯示卡各種參數。 furmark怎麼算合格？ 1.用furmark烤機，半小時左右看一下結果，基本上在85度左右徘徊，峰值87度，室溫19度。大號機箱，5個機殼風扇口，前置兩個，上置兩個，後置一個，不過只裝了一個風扇。所有配件都沒有超頻。 2.一般情況下，顯示卡的正常溫度應在「30-85℃」之間。 3.就算是大夏天周圍環境溫度過高，正常溫度也是「50-85℃

建議：優秀JS開源人臉偵測辨識項目 Apr 03, 2024 am 11:55 AM

人臉偵測辨識技術已經是一個比較成熟且應用廣泛的技術。而目前最廣泛的網路應用語言非JS莫屬，在Web前端實現人臉偵測辨識相比後端的人臉辨識有優勢也有弱勢。優點包括減少網路互動、即時識別，大大縮短了使用者等待時間，提高了使用者體驗；弱勢是：受到模型大小限制，其中準確率也有限。如何在web端使用js實現人臉偵測呢？為了實現Web端人臉識別，需要熟悉相關的程式語言和技術，如JavaScript、HTML、CSS、WebRTC等。同時也需要掌握相關的電腦視覺和人工智慧技術。值得注意的是，由於Web端的計

阿里7B多模態文件理解大模型拿下新SOTA Apr 02, 2024 am 11:31 AM

多模態文件理解能力新SOTA！阿里mPLUG團隊發布最新開源工作mPLUG-DocOwl1.5，針對高解析度圖片文字辨識、通用文件結構理解、指令遵循、外部知識引入四大挑戰，提出了一系列解決方案。話不多說，先來看效果。複雜結構的圖表一鍵識別轉換為Markdown格式：不同樣式的圖表都可以：更細節的文字識別和定位也能輕鬆搞定：還能對文檔理解給出詳細解釋：要知道，“文檔理解”目前是大語言模型實現落地的一個重要場景，市面上有許多輔助文檔閱讀的產品，有的主要透過OCR系統進行文字識別，配合LLM進行文字理

單卡跑Llama 70B快過雙卡，微軟硬生把FP6搞到A100哩 | 開源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮點數量化精度，不再是H100的「專利」了！老黃想讓大家用INT8/INT4，微軟DeepSpeed團隊在沒有英偉達官方支援的條件下，硬生在A100上跑起FP6。測試結果表明，新方法TC-FPx在A100上的FP6量化，速度接近甚至偶爾超過INT4，而且比後者擁有更高的精度。在此基礎之上，還有端到端的大模型支持，目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama，吞吐量比雙卡還要高2.65倍。一名

1.3ms耗時！清華最新開源行動裝置神經網路架構 RepViT Mar 11, 2024 pm 12:07 PM

论文地址：https://arxiv.org/abs/2307.09283代码地址：https://github.com/THU-MIG/RepViTRepViT在移动端ViT架构中表现出色，展现出显著的优势。接下来，我们将探讨本研究的贡献所在。文中提到，轻量级ViTs通常比轻量级CNNs在视觉任务上表现得更好，这主要归功于它们的多头自注意力模块(MSHA)可以让模型学习全局表示。然而，轻量级ViTs和轻量级CNNs之间的架构差异尚未得到充分研究。在这项研究中，作者们通过整合轻量级ViTs的有效

剛剛發布！一鍵產生動漫風格圖片的開源模型 Apr 08, 2024 pm 06:01 PM

向大家介紹一個最新的AIGC開源專案－AnimagineXL3.1。這個專案是動漫主題文字到圖像模型的最新迭代，旨在為用戶提供更優化和強大的動漫圖像生成體驗。在AnimagineXL3.1中，開發團隊專注於優化了幾個關鍵方面，以確保模型在效能和功能上達到新的高度。首先，他們擴展了訓練數據，不僅包括了先前版本中的遊戲角色數據，還加入許多其他知名動漫系列的數據納入訓練集中。這項舉措豐富了模型的知識庫，使其能夠更全面地理解各種動漫風格和角色。 AnimagineXL3.1引入了一組新的特殊標籤和美學標

See all articles

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

比「大海撈針」更精準

GPT-4與Kimi難分高下

One More Thing

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

「大海撈針」out！ 「數星星」成測長文本能力更精準方法，來自鵝廠

比「大海撈針」更精準

GPT-4與Kimi難分高下

One More Thing

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠