7B模型超越GPT4-V!港科大等發布「圖推理問答」資料集GITQA:視覺圖可提升推理能力
圖神經網路(GNNs)善於利用圖的結構資訊進行推斷,但通常需要進行特定領域的調優,以實現最佳性能,這使得它們在不同任務之間的泛化能力受到限制。
大型語言模型(LLM)在圖推理方面具有更強的跨任務和泛化能力,但通常在特定任務上表現不如專用的圖神經網路模型。
目前圖推理相關研究往往忽略了視覺訊息在圖推理中的重要性,無論是傳統的圖神經網路還是基於大型語言模型的圖推理方法。
然而,人類會透過視覺特徵有效且準確地完成圖任務,例如判斷圖中是否存在環。
因此,探究視覺形態的圖資訊在圖推理中的作用具有重要意義。
更具體地,將圖(Graph)繪製為圖片(Image),是否能賦予模型特殊的推理能力呢?這些圖片(稱為視覺圖 Visual Graph)是否能增強現有的基於其他模態的圖推理模型呢?
為了回答這些問題,來自香港科技大學和南方科技大學的研究團隊構建了首個包含視覺圖的推理問答資料集GITQA,並在GPT-4 turbo,GPT-4V等開源模型和Vicuna,LLaVA等閉源模型上進行了廣泛的實驗,證實了Visual Graph在圖推理中的作用,以及其可以和文本模態相互增強。
圖片
#論文網址:https://arxiv.org/abs/2402.02130
#計畫首頁:https://v-graph.github.io/
在GITQA測試基準中,以LLaVA-7B/13B為基礎微調出的多模態模型GITA-7B/13B,展示了超越GPT-4V的圖推理表現。
GITQA 多模態圖推理問答資料集
研究團隊透過將圖結構繪製為不同風格的視覺圖像,建立了GITQA資料集及其對應的測試基準,GITQA資料集包含超過423K個問答實例,每個實例包含相互對應的圖結構-文字-視覺資訊及其對應的問答對。
GITQA資料集包含兩個版本:GITQA-Base和GITQA-Aug,其中GITQA-Base只包含單一風格的視覺圖。
GITQA-Aug則更加豐富,它對視覺圖進行了多種資料增強處理,包括改變佈局、點的形狀、邊的寬度和點的風格等,從而提供了更多樣化的視覺圖表現。
圖片
如圖1,GITQA測試基準包含8個代表性的圖推理任務:Connectivity(判斷圖中兩點是否聯通)、Cycle(判斷圖中是否有環)、TS(尋找圖的拓樸序)、 SP(尋找圖中兩點間的最短路徑)、 MaxFlow(計算圖中兩點間的最大流)、 BGM(計算二分圖的最大匹配)、 HP(尋找圖中的哈密頓路徑)和GNN(模擬GNN的訊息傳遞)。
圖片
每個任務所對應的資料集都被依照圖結構的複雜程度被劃分為不同難度等級的子集(相關統計如表1)。
實驗及結果
實驗一: 基於不同模態圖資訊的模型的圖推理能力對比
研究團隊在GITQA-Base資料集上,根據不同的模態圖輸入類型(包括僅文字(T-Only)、僅視覺(V-Only)、以及文字加視覺(V T)),評估了流行的閉源和開源大型語言模型(如GPT-4 turbo和Vicuna-7B/13B)以及大型多模態語言模型(如GPT-4V和LLaVA-7B/13B)的表現。如圖2所示。
圖片
具體來說,閉源模型GPT-4和GPT-4V執行零樣本推理,而對於開源模型Vicuna和LLaVA,則透過保持主幹模型參數不變,僅訓練Projector和LoRA部分進行了微調(特別地,視覺文字雙模態微調後的LLaVA模型被研究者命名為GITA)。
表2總結了所有八項圖推理任務的測試結果。
圖片
視覺模式V.S.文字模態
從表2可以看到,在Cycle和BGM任務上,視覺模態的表現優於文字模態,而在其他五個任務上則不如文字模態。這揭示了視覺和文字在處理特定類型的圖推理任務上各具優勢。視覺和文字模態的相互增強
對於閉源模型,GPT-4V(V T)在八個任務的平均準確率上遠高於GPT-4 Turbo(T-only)和GPT-4V (V-only)。
對於開源模型(7B,13B),同樣地,使用雙模態資料訓練出的GITA模型平均表現最佳。這些觀察結果驗證了同時使用視覺和文字資訊能夠增強模型的圖推理能力,相比單模態模型可以實現更好的性能。
更具體地說,GITA-7B(V T)在幾乎所有任務中都表現優於LLaVA-7B(V-only)和Vicuna-7B(T-only)。而對於閉源模型,使用雙模態在八個任務中的五個達到了最高準確率。微調後的LLaVA模型可超越GPT-4V
如表2和圖3所示,GITA-7B和GITA-13B模型,即經過雙模態微調的LLaVA-7B/13B模型,顯示出相較於GPT-4V超過13%的顯著性能提升。這一巨大的進步幅度表明,微調後的GITA模型能夠有效地從GITQA資料集中學習到出色的圖推理能力。
圖片
實驗二:難度等級對圖表任務的影響
表3進一步給出了模型在不同難度等級上的測試精度,GNN任務由於對所有模型都太具挑戰被省略)。
在所有難度等級的Cycle和BGM任務中,單獨使用視覺模態的表現都優於文字模態,並且與使用兩種模態的表現相當。
然而,對於其他任務,當難度從簡單增加到中等或困難時,只使用視覺模態的模型的表現顯著下降。
圖片
同樣,當難度增加時,只使用文字模態和使用視覺文字模態的模型在這些任務上也會出現大幅度的效能下降。
對於Connectivity任務,GITA-7B(視覺 文字)和GITA-13B(視覺 文字)在所有三個挑戰等級上都表現出相當的表現。
然而,這種一致的模式在GPT-4V(視覺 文字)中並未觀察到,因為其表現隨著難度等級的增加而下降。
實驗三: 視覺圖的增強策略與風格偏好
研究團隊也探討了特別的資料增強策略在微調模型時的效果。
基於不同的增強策略,研究者將GITQA-Aug資料集劃分為四個增強子集: 佈局增強資料集,節點形狀增強資料集,邊的寬度增強數據集,節點風格增強資料集。
圖片
研究者在僅使用視覺圖資訊的LLaVA-7B模型上對全部四個增強子集進行了單獨的微調,其推理表現與資料增強前的比較如表4所示。
可以明顯看出,模型在佈局增強資料集上對於挑戰性任務的推理能力急劇提升(SP 上升64.8%,HP上升69.63%)。
而其他三種資料增強策略反而導致效能下降。
具體來說,模型在佈局增強集上取得了優異的結果,比GITQA-Base集高出11%以上。相較之下,其他增廣集中八個任務的平均結果比基本集低約5%
圖片
這些發現表明基於佈局的資料增強為圖推理提供了更有效的視覺視角。進一步,研究者也測試了各個增強策略下,在同組內基於每種風格的Visual Graph推理的性能,如表5所示,展示模型沒有明顯的風格偏好。
以上是7B模型超越GPT4-V!港科大等發布「圖推理問答」資料集GITQA:視覺圖可提升推理能力的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺
