重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力
眾所周知,大型語言模型(LLM)可以透過上下文學習的方式從少量範例中學習,無需進行模型微調。目前,這種上下文學習現像只能在大型模型中觀察到。例如,像GPT-4、Llama等大型模型在許多領域中都表現出了卓越的性能,但由於資源限製或實時性要求較高,許多場景無法使用大型模型
那麼,常規大小的模式是否具備這種能力呢?為了探索小模型的上下文學習能力,位元組和華東師大的研究團隊在場景文字辨識任務上進行了研究。
目前,在實際應用場景中,場景文字辨識面臨多種挑戰:不同的場景、文字排版、形變、光照變化、字跡模糊、字體多樣性等,因此很難訓練一個能應付所有場景的統一的文本辨識模型。
解決該問題的一個直接方法是收集相應的數據,並在具體場景中微調模型。然而,這個過程需要重新訓練模型,計算量很大,並且需要保存多個模型權重以適應不同的場景。如果文字辨識模型能夠具備情境學習能力,在面對新場景時,只需要少量標註資料作為提示,就能提昇在新場景上的效能,從而解決上述問題。然而,場景文字辨識是一個資源敏感型任務,將大模型作為文字辨識器會消耗大量資源。透過初步的實驗觀察,研究人員發現傳統的大模型訓練方法並不適用於場景文本辨識任務
為了解決這個問題,來自字節跳動和華東師大的研究團隊提出了自進化文本識別器,E2STR(Ego-Evolving Scene Text Recognizer)。這是一個融合了上下文學習能力的常規大小的文本識別器,能夠快速適應不同的文本識別場景,而無需微調
論文連結:https://arxiv.org/pdf/2311.13120.pdf
E2STR 配備了一種情境訓練和情境推理模式,不僅在常規資料集上達到了SOTA 的水平,而且可以使用單一模型提昇在各個場景中的識別性能,實現對新場景的快速適應,甚至超過了經過微調後專用模型的識別性能。 E2STR 證明,常規大小的模型足以在文字辨識任務中實現有效的情境學習能力。
方法
在圖1中,展示了E2STR的訓練與推理過程
1. 基礎文字辨識訓練
#基礎文字辨識訓練階段採用自回歸框架訓練視覺編碼器和語言解碼器,目的為了取得文字辨識能力:
#2. 上下文訓練
情境訓練階段 E2STR 將依據文中所提出的情境訓練範式進行進一步訓練。在這階段,E2STR 會學習理解不同樣本之間的聯繫,從而從上下文提示中獲得推理能力。
如圖2 所示,這篇文章提出ST 策略,在場景文字資料中進行隨機的分割和轉換,從而產生一組"子樣本"。子樣本在視覺和語言方面都是內在連結的。這些內在聯繫的樣本被拼接成一個序列,模型從這些語意豐富的序列中學習上下文知識,從而獲得上下文學習的能力。這一階段同樣採用自回歸框架進行訓練:
#需要進行改寫的內容是:3. 上下文推理 改寫後的內容:3. 根據上下文進行推理
針對一個測試樣本,該框架會從上下文提示池中選擇N 個樣本,這些樣本在視覺隱空間與測試樣本具有最高的相似度。具體來說,這篇文章透過對視覺 token 序列做平均池化,計算出圖像 embedding I 。然後,從上下文池中選擇影像嵌入與 I 的餘弦相似度最高的前 N 個樣本,從而形成上下文提示。
將上下文提示和測試樣本拼接在一起送入模型後,E2STR會以無需訓練的方式從上下文提示中學習新的知識,從而提高測試樣本的辨識準確度。需要注意的是,上下文提示池只保留視覺編碼器輸出的令牌,使得上下文提示的選擇過程非常有效率。此外,由於上下文提示池很小,且E2STR無需訓練即可進行推理,因此額外的計算開銷也被降至最低
實驗
#實驗主要從三個面向進行:分別是傳統文本辨識集、跨域場景辨識和困難樣本修正
#1.傳統資料集
從訓練集中隨機抽取很少的樣本(1000 個,訓練集0.025% 的樣本數量)組成上下文提示池,在12 個常見的場景文本識別測試集中進行的測試,結果如下:
可以發現 E2STR 在辨識表現差不多已經飽和的傳統資料集上依然提升,超越了SOTA 模型的表現。
需要進行改寫的內容是:2. 跨域場景
跨域場景下每個測試集僅提供100 個域內訓練樣本,無訓練和微調對比結果如下,E2STR 甚至超過了SOTA 方法的微調結果。
需要進行改寫的內容是:3. 修改困難樣本
研究人員收集了一批困難樣本,對這些樣本提供了10%~20% 的標註,對比 E2STR 的無需訓練的上下文學習方法和SOTA 方法的微調學習方法,結果如下:
比較微調方法,E2STR-ICL顯著降低了困難樣本的錯誤率
未來展望
E2STR 證明了使用適當的訓練和推理策略,小模型也可以擁有和LLM 類似的In-context Learning 的能力。在一些即時性要求比較強的任務中,使用小模型也可以對新場景進行快速的適應。更重要的是,這種使用單一模型來實現對新場景快速適應的方法使得建立統一高效的小模型更近了一步。
以上是重新表達的標題為:位元組跳動與華東師大的合作:探索小模型的脈絡學習能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在去年4月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究者們共同發布了LLaVA(LargeLanguageandVisionAssistant)。儘管LLaVA只是用一個小的多模態指令資料集進行訓練,但在一些樣本上展現了與GPT-4非常相似的推理結果。然後在10月,他們推出了LLaVA-1.5,透過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結果非常令人振奮,為多模態AI助理領域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
