目錄
重構預訓練
重構工程
訊號定義
資料探勘
訊號擷取
訊號重建
在 55 種常用的 NLP 資料集上的實驗
高考實驗:邁向人類層級的AI
首頁 科技週邊 人工智慧 今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

Apr 09, 2023 am 10:21 AM
nlp 訓練

我們儲存資料的方式正在發生變化,從生物神經網路到人工神經網絡,其實最常見的情況是使用大腦來儲存資料。隨著當今可用數據的不斷增長,人們尋求用不同的外部設備儲存數據,如硬碟或雲端儲存。隨著深度學習技術的興起,另一種有前景的儲存技術已經出現,它使用人工神經網路來儲存資料中的資訊。

研究者認為,資料儲存的最終目標是更好地服務人類生活,資料的存取方式和儲存方式同樣重要。然而,儲存和存取資料的方式存在差異。歷史上,人們一直在努力彌補這一差距,以便更好地利用世界上存在的資訊。如圖3 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

  • 在生物神經網路(如人腦)方面,人類在很小的時候就接受了課程(即知識)教育,以便他們能夠提取特定的數據來應對複雜多變的生活。
  • 對於外部設備存儲,人們通常會按照某種模式(例如表格)對資料進行結構化,然後採用專門的語言(例如 SQL)從資料庫中有效地檢索所需的資訊。
  • 對於基於人工神經網路的存儲,研究人員利用自監督學習來儲存來自大型語料庫的資料(即預訓練),然後將該網路用於各種下游任務(例如情緒分類)。

來自 CMU 的研究者提出了一種存取包含各種類型資訊資料的新方法,這些資訊可以作為指導模型進行參數最佳化的預訓練訊號。研究以訊號為單位結構化地表示資料。這類似於使用資料庫對資料進行儲存的場景:首先將它們建構成表格或 JSON 格式,這樣就可以透過專門的語言 (如 SQL) 準確地檢索所需的資訊。

此外,該研究認為有價值的訊號豐富地存在於世界各類的數據中,而不是簡單地存在於人工管理的監督數據集中, 研究人員需要做的是(a) 識別數據(b) 以統一的語言重組資料(c)將它們整合並儲存到預訓練語言模型中。研究稱這種學習範式為重構預訓練(reStructured Pre-training,RST)。研究者將這個過程比喻為「礦山尋寶」。不同的資料來源如維基百科,相當於盛產寶石的礦場。它們包含豐富的訊息,例如來自超連結的命名實體,可以為模型預訓練提供訊號。一個好的預訓練模型 (PLM) 應該清楚地了解資料中各種訊號的組成,以便根據下游任務的不同需求提供準確的資訊。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

論文網址:https://arxiv.org/pdf/2206.11147.pdf

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

預訓練語言模型尋寶

該研究提出自然語言處理任務學習的新範式, 即RST,該範式重新重視數據的作用,並將模型預訓練和下游任務的微調視為數據的儲存和存取過程。在此基礎上,該研究實現了一個簡單的原則,即良好的儲存機制不僅應該具有快取大量資料的能力,還應該考慮存取的方便性。

在克服了一些工程挑戰後,該研究透過對重構資料(由各種有價值的資訊而不是原始資料組成)進行預訓練來實現這一點。實驗證明,RST 模型不僅在來自各種NLP 任務(例如分類、資訊抽取、事實檢索、文字生成等)的52/55 流行資料集上表現大幅超過現有最佳系統(例如,T0),而且無需對下游任務進行微調。在每年有數百萬學生參加的中國最權威的高考英語考試中也取得了優異的成績。

具體而言,本文所提出的高考 AI (Qin) 比學生的平均分數高出 40 分,比使用 1/16 參數的 GPT3 高出 15 分。特別的 Qin 在 2018 年英語考試中獲得了 138.5 的高分(滿分 150)。

此外,該研究還發布了高考基準(Gaokao Benchmark)在線提交平台,包含2018-2021 年至今10 篇帶註釋的英文試卷(並將每年進行擴展),讓更多的AI 模型參加高考,該研究還建立了一個相對公平的人類和AI 競爭的測試平台,幫助我們更好地了解我們所處的位置。另外,在前幾天(2022.06.08)的 2022 年高考英語測驗中,該 AI 系統獲得了 134 分的好成績,而 GPT3 只獲得了 108 分。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

該研究的主要貢獻包括:

(1)提出 NLP 方法的演進假說。該研究試圖透過探索現代 NLP 技術發展之間的內在聯繫,從全局的角度建立了「NLP 技術演進假說」。簡而言之,該假說的核心思想是:技術的迭代總是沿著這樣的方向發展:即開發者只需做更少的事情便可以來設計更好、更通用的系統。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

到目前為止,NLP 技術演進已經經歷如圖2 所示的多次迭代:特徵工程→架構工程→目標工程→prompt 工程,正在朝著更實際有效的以資料為中心的工程邁進。研究者希望未來能激發更多的科學研究人員批判性思考這個問題,掌握科技進步的核心驅動力,找到學術發展「梯度上升」路徑,做更多有科學意義的工作。

(2)基於演進假說新範式:重​​建預訓練(reStructured Pre-training)。此範式將模型預訓練 / 微調視為資料儲存 / 存取過程,並聲稱良好的儲存機制應該使預期資料易於存取。有了這樣一個新範式,該研究能夠從 10 個資料來源(例如 Wikipedia)中統一世界上 26 種不同類型的訊號(例如句子的實體)。在此基礎上訓練的通用模型在各種任務上取得了很強的泛化能力,其中包括 55 個 NLP 的資料集。

(3)用於高考的 AI。基於上述範式,研究開發了一個專門用於高考英語測驗任務的 AI 系統——Qin。這是世界上第一個基於深度學習的高考英語人工智慧系統。 Qin 在多年的高考試題上都取得了卓越的成績:比普通人高出 40 分,僅用 GPT-3 1/16 的參數量就獲得了比 GPT-3 高 15 分的成績。特別是在 2018 年英語試題上,QIN 獲得了 138.5 分(滿分 150 分)的高分,聽力和閱讀理解都滿分。

(4) 豐富的資源。 (1) 為了追蹤現有 AI 技術在實現人類智慧方面的進展,該研究發布了一種新基準-Gaokao Benchmark。它不僅提供對現實世界場景中各種實際任務和領域的全面評估,還可以提供人類的表現成績,以便人工智慧系統可以直接與人類進行比較。 (2)該研究使用 ExplainaBoard(Liu et al., 2021b)為 Gaokao Benchmark 設定了一個互動式排行榜,以便更多的 AI 系統可以輕鬆參加 Gaokao Benchmark 並自動獲得分數。 (3)所有資源都可以在 GitHub 上找到。

此外,AI 在高考英語測驗任務上的成功為研究者提供了許多新的思考:AI 技術可以賦能教育,幫助解決教育和教學中的一系列問題。

例如,(a) 幫助教師自動評分,(b) 幫助學生回答有關作業的問題並詳細解釋,以及(c) 更重要的是,促進教育公平,讓大多數家庭都能獲得同等品質的教育服務。這項工作首次以統一的方式整合了世界上 26 個不同的訊號,而不是試圖區分有監督和無監督的數據,而是關心我們可以多少使用大自然給我們的資訊以及如何使用。來自各種 NLP 任務的 50 多個資料集的出色表現顯示了以資料為中心的預訓練的價值,並激發了更多的未來探索。

重構預訓練

解決 NLP 任務的範式正在迅速變化,並且仍在持續,下表列出了 NLP 中的五種範式:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

與現有的以模型為中心的設計範式不同,該研究更多地從數據的角度思考,以最大限度地利用已有數據。具體來說,該研究採用資料儲存和存取視圖,其中預訓練階段被視為資料儲存過程,而基於預訓練模型的下游任務(例如,情緒分類)被視為來自預訓練模型的資料存取過程,並聲稱良好的資料儲存機制應該使儲存的資料更易於存取。

為了實現這一目標,該研究將數據視為由不同信號組成的對象,並認為一個好的預訓練模型應該(1)覆蓋盡可能多的信號類型,(2)當下游任務需要時,為這些訊號提供精確的存取機制。一般來說,這個新範式包含三個步驟:重構、預訓練、微調。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

重構、預訓練、微調的新範式凸顯了資料的重要性,研究人員需要在資料處理上投入更多的工程精力。

重構工程

訊號定義

訊號是資料中存在的有用信息,可以為機器學習模型提供監督,表示為 n 元組。例如「莫札特出生在薩爾斯堡」,「莫札特」、「薩爾斯堡」可以被認為是命名實體辨識的訊號。通常,可以從不同的角度對訊號進行聚類,如下圖 6 所示。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

資料探勘

現實世界的資料中包含許多不同類型的訊號。重構預訓練使這些訊號能夠充分被利用。本研究將收集到的訊號(n 元組)組織在樹形圖中,如下圖 10 所示。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

訊號擷取

下一步研究進行了訊號擷取和處理,涉及從不同模態的資料探勘中獲取原始資料、資料清洗和數據規範化。現有的方法大致分為兩種:(1)基於規則的,(2)基於機器學習的。在這項工作中,該研究主要關注基於規則的訊號提取策略,並為未來的工作留下更多高覆蓋率的方法。

訊號重建

在從各種資料探勘中提取出不同的訊號之後,接下來重要的一步是將它們統一成一個固定的形式,以便在預訓練期間將所有資訊一致儲存在模型中。 prompt 方法(Brown et al., 2020; Liu et al., 2021d)可以實現這個目標,原則上,透過適當的 prompt 設計,它幾乎可以將所有類型的訊號統一為一種語言模型風格。

該研究將訊號分為兩大類:通用訊號和任務相關訊號。前者包含基本的語言知識,可以在一定程度上使所有下游任務受益,而後者則可以使某些特定的下游任務受益。

在 55 種常用的 NLP 資料集上的實驗

該研究在 55 個資料集上進行評估,然後將它們分別與 GPT3 和 T0pp 進行比較。與 GPT3 比較的結果如圖所示:在 cb 資料集以外的四個資料集上,RST-All 和 RST-Task 都具有比 GPT3 的小樣本學習更好的零樣本效能。此外,cb 資料集是這些資料集中最小的,驗證集中只有 56 個樣本,因此不同的 prompt 在該資料集上的表現會有較大的波動。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

與 T0pp 比較結果如表 4-6 所示。例如在 55 個測量的平均效能中,RST-All 在 49 個資料集上擊敗了 T0pp,並在 47/55 範例上以最大效能勝出。此外,在 55 個資料集的平均效能測試中,RST-Task 在 52 個資料集上優於 T0pp,並在 50/55 個範例下超越 T0pp。這說明重構學習的優越性。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

# 表現最佳的模型 RST-Task 擅長哪些任務?為了回答這個問題,研究將 RST-Task 模型在零樣本設定中的表現與目前 SOTA 模型進行比較,結果如圖 13 所示。 RST-Task 擅長主題分類、情緒分類和自然語言推理任務,但在資訊擷取任務中表現較差。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

高考實驗:邁向人類層級的AI

該研究收集了10 份高考英語試卷,包括2018 年國考I/III、2019年國考I/II/III、2020 年國考I/II/III、2021 年全國卷A/B。這些考卷遵循相同的題型,他們將所有考試題型分為以下七個子類別,如表7 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

#每篇高考英語試卷滿分150 分。聽力、完形填空、閱讀、寫作分別佔 30、45、40、35。通常,寫作部分是主觀的,需要人工評估,而其他部分是客觀的,可以自動評分。如表 8 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

使用表 1 所示的重構工程循環來建立高考英語 AI 系統,即 Qin。整個過程如圖14 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

本研究使用下列prompt 將原始訊號元組轉換為prompt 樣本,如表9 所示:

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

實驗結果如表10-11 所示,我們可以得出以下結論:在每一份英語試卷中,RST 在兩套聽力考試中取得了最高的總分,平均分數為130.6 分;與T0pp相比,RST 的性能要遠優於相同模型大小下的T0pp。在所有設定中,RST 獲得的總分平均比T0pp 高出54.5 分,最高差距為69 分(佔總分的46%);與GPT3 相比,RST 可以在模型大小小16 倍的情況下取得明顯更好的結果。在所有考慮的設定中,RST 獲得的總分平均比T0pp 高14.0 分,最高為26 分(佔總分的17%);對於T0pp,使用黃金和語音轉文本成績單獲得的聽力分數差異很大,平均為4.2 分。相較之下,GPT3 和 RST 分別為 0.6 和 0.45,顯示 T0pp 的表現對文字品質很敏感。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

該研究進行了細粒度分析,以了解不同模型在不同問題子類別上的表現。在圖 15-(a) 中,很明顯 RST 和 GPT3 在每個問題子類別上都優於 T0pp。

圖 15-(b)為近年來模型的表現和學生在全國試卷上的平均表現。很明顯,T0pp 在 9/10 試卷上的總分低於學生的平均水平,而 RST 和 GPT3 的表現則超過了學生的平均水平。尤其是這十份試卷中有五份,RST 的總分超過了 130(通常被認為是學生爭取的目標分數)。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

2022 年高考 - 英語考試(2022.06.08)剛結束,了解到模型在最近一年的高考試卷中的表現。研究以 GPT3 和 RST 進行實驗。結果顯示 RST 總分達到 134,遠高於 GPT3 達到的 108 分。

今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3

以上是今年英語高考,CMU用重構預訓練交出134高分,大幅超越GPT3的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

拋棄編碼器-解碼器架構,用擴散模型做邊緣偵測效果更好,國防科大提出DiffusionEdge 拋棄編碼器-解碼器架構,用擴散模型做邊緣偵測效果更好,國防科大提出DiffusionEdge Feb 07, 2024 pm 10:12 PM

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5 通義千問再開源,Qwen1.5帶來六種體量模型,表現超越GPT3.5 Feb 07, 2024 pm 10:15 PM

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大模型也能切片,微軟SliceGPT讓LLAMA-2運算效率大增 大模型也能切片,微軟SliceGPT讓LLAMA-2運算效率大增 Jan 31, 2024 am 11:39 AM

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

追趕Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了 追趕Gemini Pro,提升推理、OCR能力的LLaVA-1.6太強了 Feb 01, 2024 pm 04:51 PM

在去年4月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究者們共同發布了LLaVA(LargeLanguageandVisionAssistant)。儘管LLaVA只是用一個小的多模態指令資料集進行訓練,但在一些樣本上展現了與GPT-4非常相似的推理結果。然後在10月,他們推出了LLaVA-1.5,透過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結果非常令人振奮,為多模態AI助理領域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理,複雜運動也能精準建模 快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理,複雜運動也能精準建模 Jun 11, 2024 am 09:51 AM

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心資料瓶頸難題 Apr 29, 2024 pm 06:55 PM

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

See all articles