探究新一代超越GPT 3.5的小型模型。
去年年底,OpenAI 向公眾推出了ChatGPT,一經發布,這項技術立即將AI 驅動的聊天機器人推向了主流話語的中心,眾多研究者並就其如何改變商業、教育等展開了一輪又一輪辯論。
隨後,科技巨頭們紛紛跟進投入科研團隊,他們所謂的「生成式 AI」技術(可以製作對話文字、圖形等的技術)也已準備就緒。
眾所周知,ChatGPT 是在GPT-3.5 系列模型的基礎上微調而來的,我們看到很多研究也在緊隨其後緊追慢趕,但是,與ChatGPT相比,他們的新研究效果到底有多好?近日,亞馬遜發布的一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》中,他們提出了包含視覺特徵的Multimodal-CoT,該架構在參數量小於10 億的情況下,在ScienceQA 基準測試中,比GPT-3.5 高出16 個百分點(75.17%→91.68%),甚至超過了許多人類。
這裡簡單介紹ScienceQA 基準測試,它是首個標註詳細解釋的多模態科學問答資料集,由UCLA 和艾倫人工智慧研究院(AI2)提出,主要用於測試模型的多模態推理能力,有著非常豐富的領域多樣性,涵蓋了自然科學、語言科學和社會科學領域,對模型的邏輯推理能力提出了很高的要求。
論文網址:https://arxiv.org/abs/2302.00923
#專案地址:https://github.com/amazon-science/mm-cot
下面我們來看看亞馬遜的語言模式是如何超越GPT-3.5 的。
包含視覺特徵的Multimodal-CoT
大型語言模型(LLM) 在複雜推理任務上表現出色,離不開思維鏈(CoT) 提示的助攻。然而,現有的 CoT 研究只關注語言模態。為了在多模態中觸發 CoT 推理,一個可能的解決方案是透過融合視覺和語言特徵來微調小型語言模型以執行 CoT 推理。
然而,根據已有觀察,小模型往往比大模型更能頻繁地胡編亂造,模型的這種行為通常被稱為「幻覺(hallucination)」。先前Google的一項研究也表明( 論文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models ),基於 CoT 的提示只有在模型具有至少 1000 億參數時才有用!
也就是說,CoT 提示不會對小型模型的效能產生正面影響,並且只有在與 ∼100B 參數的模型一起使用時才會產生效能提升。
然而,本文研究在小於 10 億參數的情況下就產生了效能提升,是如何做到的呢?簡單來講,本文提出了包含視覺特徵的 Multimodal-CoT,透過這個範式(Multimodal-CoT)來尋找多模態中的 CoT 推理。
Multimodal-CoT 將視覺特徵結合在一個單獨的訓練框架中,以減少語言模型有產生幻覺推理模式傾向的影響。整體而言,這個框架將推理過程分為兩部分:基本原理產生(尋找原因)和答案推理(找出答案)。
#Multimodal CoT 兩階段過程:使用文字(問題 上下文)和視覺特徵來產生邏輯依據。
資料集
#本文主要關注ScienceQA 資料集,該數據集將圖像和文字作為上下文的一部分,此外,該資料集還包含對答案的解釋,以便可以對模型進行微調以產生CoT 基本原理。此外,本文利用 DETR 模型產生視覺特徵。
較小的LM 在生成CoT / 基本原理時容易產生幻覺,作者推測,如果有一個修改過的架構,模型可以利用LM 生成的文本特徵和圖像模型生成的視覺特徵,那麼更有能力提出理由和回答問題。
架構
#總的來說,我們需要一個可以產生文字特徵和視覺特徵並利用它們生成文字回應的模型。
又已知文字和視覺特徵之間存在的某種交互,本質上是某種共同註意力機制,這有助於封裝兩種模態中存在的訊息,這就讓借鏡思路成為了可能。為了完成所有這些,作者選擇了 T5 模型,它具有編碼器 - 解碼器架構,並且如上所述,DETR 模型用於生成視覺特徵。
T5 模型的編碼器負責產生文字特徵,但T5 模型的解碼器並沒有利用編碼器產生的文字特徵,而是使用作者提出的共同註意式互動層( co-attention-styled interaction layer)的輸出。
拆解來看,假設 H_language 是 T5 編碼器的輸出。 X_vision 是 DETR 的輸出。第一步是確保視覺特徵和文字特徵具有相同的隱藏大小,以便我們可以使用注意力層。
注意:所有程式碼片段均來自論文的GitHub:https://github.com/amazon-science/mm-cot/blob/main/model.py
self.image_dense = nn.Linear(self.patch_dim, config.d_model)
W_h 本質上是一個線性層,H_vision 對應最終的視覺特徵。 W_h 有助於更改視覺特徵的大小以匹配文字特徵的大小。
下面我們需要加入一個注意力層,以便視覺和文字特徵可以相互互動。為此,作者使用單頭注意力層,將 H_language 作為查詢向量,將 H_vision 作為鍵和值向量。
self.mha_layer = torch.nn.MultiheadAttention(embed_dim=config.hidden_size, kdim=config.hidden_size, vdim=config.hidden_size, num_heads=1, batch_first=True) image_att, _ = self.mha_layer(hidden_states, image_embedding, image_embedding)
現在我們有了包含來自文字和視覺特徵的資訊的嵌入。隨後,作者利用門控融合來產生最終的一組特徵,這些特徵將被發送到解碼器。門控融合有兩個步驟:
- 取得一個介於 0 和 1 之間的分數向量,以確定每個注意力特徵的重要性。
- 利用 score 融合 text 和 attention 特徵。
W_I 和 W_v 基本上是兩個線性層。
self.gate_dense = nn.Linear(2*config.hidden_size, config.hidden_size) self.sigmoid = nn.Sigmoid() hidden_states = encoder_outputs[0] merge = torch.cat([hidden_states, image_att], dim=-1) gate = self.sigmoid(self.gate_dense(merge)) hidden_states = (1 - gate) * hidden_states + gate * image_att
最後,融合的特徵被傳遞給解碼器。
decoder_outputs = self.decoder( input_ids=decoder_input_ids, attention_mask=decoder_attention_mask, inputs_embeds=decoder_inputs_embeds, past_key_values=past_key_values, encoder_hidden_states=hidden_states,
這幾乎就是作者所遵循的架構!但是,請記住有兩個階段。第一個階段是產生基本原理 / CoT。第二階段利用第一階段產生的 CoT 來產生答案,如上圖所示。
結果
作者使用 UnifiedQA 模型的權重作為 T5 模型的初始化點,並在 ScienceQA 資料集上微調。他們觀察到他們的 Multimodal CoT 方法優於所有先前的基準,包括 GPT-3.5。
有趣的地方在於,即使只有 2.23 億個參數的基本模型也優於 GPT-3.5 和其他 Visual QA 模型!這突顯了擁有多模態架構的力量。
作者也展示了他們的兩階段方法優於單階段方法。
#結論
#這篇論文帶來的最大收穫是多模態特徵在解決具有視覺和文字特徵的問題時是多麼強大。
作者展示了利用視覺特徵,即使是小型語言模型(LM)也可以產生有意義的思維鏈/ 推理,而幻覺要少得多,這揭示了視覺模型在發展以思維鏈為基礎的學習技術中可以發揮的作用。
從實驗中,我們看到以數百萬個參數為代價添加視覺特徵的方式,比將純文字模型擴展到數十億個參數能帶來更大的價值。
以上是探究新一代超越GPT 3.5的小型模型。的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
