7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力-人工智慧-PHP中文網

GITQA 多模態圖推理問答資料集

實驗及結果

實驗一: 基於不同模態圖資訊的模型的圖推理能力對比

視覺模式V.S.文字模態

實驗二：難度等級對圖表任務的影響

首頁

科技週邊

人工智慧

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力

PHPz

Mar 04, 2024 pm 05:43 PM

模型訓練

圖神經網路（GNNs）善於利用圖的結構資訊進行推斷，但通常需要進行特定領域的調優，以實現最佳性能，這使得它們在不同任務之間的泛化能力受到限制。

大型語言模型（LLM）在圖推理方面具有更強的跨任務和泛化能力，但通常在特定任務上表現不如專用的圖神經網路模型。

目前圖推理相關研究往往忽略了視覺訊息在圖推理中的重要性，無論是傳統的圖神經網路還是基於大型語言模型的圖推理方法。

然而，人類會透過視覺特徵有效且準確地完成圖任務，例如判斷圖中是否存在環。

因此，探究視覺形態的圖資訊在圖推理中的作用具有重要意義。

更具體地，將圖（Graph）繪製為圖片（Image），是否能賦予模型特殊的推理能力呢？這些圖片（稱為視覺圖 Visual Graph）是否能增強現有的基於其他模態的圖推理模型呢？

為了回答這些問題，來自香港科技大學和南方科技大學的研究團隊構建了首個包含視覺圖的推理問答資料集GITQA，並在GPT-4 turbo，GPT-4V等開源模型和Vicuna，LLaVA等閉源模型上進行了廣泛的實驗，證實了Visual Graph在圖推理中的作用，以及其可以和文本模態相互增強。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

#論文網址：https://arxiv.org/abs/2402.02130

#計畫首頁：https://v-graph.github.io/

在GITQA測試基準中，以LLaVA-7B/13B為基礎微調出的多模態模型GITA-7B/13B，展示了超越GPT-4V的圖推理表現。

GITQA 多模態圖推理問答資料集

研究團隊透過將圖結構繪製為不同風格的視覺圖像，建立了GITQA資料集及其對應的測試基準，GITQA資料集包含超過423K個問答實例，每個實例包含相互對應的圖結構-文字-視覺資訊及其對應的問答對。

GITQA資料集包含兩個版本：GITQA-Base和GITQA-Aug，其中GITQA-Base只包含單一風格的視覺圖。

GITQA-Aug則更加豐富，它對視覺圖進行了多種資料增強處理，包括改變佈局、點的形狀、邊的寬度和點的風格等，從而提供了更多樣化的視覺圖表現。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

如圖1，GITQA測試基準包含8個代表性的圖推理任務：Connectivity(判斷圖中兩點是否聯通)、Cycle(判斷圖中是否有環)、TS（尋找圖的拓樸序）、 SP（尋找圖中兩點間的最短路徑）、 MaxFlow（計算圖中兩點間的最大流)、 BGM（計算二分圖的最大匹配）、 HP（尋找圖中的哈密頓路徑）和GNN（模擬GNN的訊息傳遞）。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

每個任務所對應的資料集都被依照圖結構的複雜程度被劃分為不同難度等級的子集（相關統計如表1）。

實驗及結果

實驗一: 基於不同模態圖資訊的模型的圖推理能力對比

研究團隊在GITQA-Base資料集上，根據不同的模態圖輸入類型（包括僅文字（T-Only）、僅視覺（V-Only）、以及文字加視覺（V T）），評估了流行的閉源和開源大型語言模型（如GPT-4 turbo和Vicuna-7B/13B）以及大型多模態語言模型（如GPT-4V和LLaVA-7B/13B）的表現。如圖2所示。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

具體來說，閉源模型GPT-4和GPT-4V執行零樣本推理，而對於開源模型Vicuna和LLaVA，則透過保持主幹模型參數不變，僅訓練Projector和LoRA部分進行了微調（特別地，視覺文字雙模態微調後的LLaVA模型被研究者命名為GITA）。

表2總結了所有八項圖推理任務的測試結果。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

視覺模式V.S.文字模態

從表2可以看到，在Cycle和BGM任務上，視覺模態的表現優於文字模態，而在其他五個任務上則不如文字模態。這揭示了視覺和文字在處理特定類型的圖推理任務上各具優勢。視覺和文字模態的相互增強

對於閉源模型，GPT-4V（V T）在八個任務的平均準確率上遠高於GPT-4 Turbo（T-only）和GPT-4V （V-only）。

對於開源模型（7B，13B），同樣地，使用雙模態資料訓練出的GITA模型平均表現最佳。這些觀察結果驗證了同時使用視覺和文字資訊能夠增強模型的圖推理能力，相比單模態模型可以實現更好的性能。

更具體地說，GITA-7B（V T）在幾乎所有任務中都表現優於LLaVA-7B（V-only）和Vicuna-7B（T-only）。而對於閉源模型，使用雙模態在八個任務中的五個達到了最高準確率。微調後的LLaVA模型可超越GPT-4V

如表2和圖3所示，GITA-7B和GITA-13B模型，即經過雙模態微調的LLaVA-7B/13B模型，顯示出相較於GPT-4V超過13%的顯著性能提升。這一巨大的進步幅度表明，微調後的GITA模型能夠有效地從GITQA資料集中學習到出色的圖推理能力。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

實驗二：難度等級對圖表任務的影響

表3進一步給出了模型在不同難度等級上的測試精度，GNN任務由於對所有模型都太具挑戰被省略)。

在所有難度等級的Cycle和BGM任務中，單獨使用視覺模態的表現都優於文字模態，並且與使用兩種模態的表現相當。

然而，對於其他任務，當難度從簡單增加到中等或困難時，只使用視覺模態的模型的表現顯著下降。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

同樣，當難度增加時，只使用文字模態和使用視覺文字模態的模型在這些任務上也會出現大幅度的效能下降。

對於Connectivity任務，GITA-7B（視覺文字）和GITA-13B（視覺文字）在所有三個挑戰等級上都表現出相當的表現。

然而，這種一致的模式在GPT-4V（視覺文字）中並未觀察到，因為其表現隨著難度等級的增加而下降。

實驗三: 視覺圖的增強策略與風格偏好

研究團隊也探討了特別的資料增強策略在微調模型時的效果。

基於不同的增強策略，研究者將GITQA-Aug資料集劃分為四個增強子集: 佈局增強資料集，節點形狀增強資料集，邊的寬度增強數據集，節點風格增強資料集。

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

研究者在僅使用視覺圖資訊的LLaVA-7B模型上對全部四個增強子集進行了單獨的微調，其推理表現與資料增強前的比較如表4所示。

可以明顯看出，模型在佈局增強資料集上對於挑戰性任務的推理能力急劇提升（SP 上升64.8%，HP上升69.63%）。

而其他三種資料增強策略反而導致效能下降。

具體來說，模型在佈局增強集上取得了優異的結果，比GITQA-Base集高出11%以上。相較之下，其他增廣集中八個任務的平均結果比基本集低約5%

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力圖片

這些發現表明基於佈局的資料增強為圖推理提供了更有效的視覺視角。進一步，研究者也測試了各個增強策略下，在同組內基於每種風格的Visual Graph推理的性能，如表5所示，展示模型沒有明顯的風格偏好。

以上是7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1253

Related knowledge

開源！超越ZoeDepth！ DepthFM：快速且精確的單目深度估計！ Apr 03, 2024 pm 12:04 PM

0.這篇文章乾了啥？提出了DepthFM：一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外，DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高，可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題：DepthFM:FastMonocularDepthEstimationwithFlowMatching作者：MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI顛覆數學研究！菲爾茲獎得主、華裔數學家領銜11篇頂刊論文｜陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI，的確正在改變數學。最近，一直十分關注這個議題的陶哲軒，轉發了最近一期的《美國數學學會通報》（BulletinoftheAmericanMathematicalSociety）。圍繞著「機器會改變數學嗎？」這個話題，許多數學家發表了自己的觀點，全程火花四射，內容硬核，精彩紛呈。作者陣容強大，包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化，要知道，其中許多文章是在一年前提交的，而在這一

替代MLP的KAN，被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初，來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如，作者表示，他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說，DeepMind的MLP有大約300,000個參數，而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎，MLP基於通用逼近定理，而KAN基於Kolmogorov-Arnold表示定理。如下圖所示，KAN在邊上具

你好，電動Atlas！波士頓動力機器人復活，180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas，正式進入電動機器人時代！昨天，液壓Atlas剛「含淚」退出歷史舞台，今天波士頓動力就宣布：電動Atlas上崗。看來，在商用人形機器人領域，波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後，短短十幾小時內，就已經有一百多萬觀看。舊人離去，新角色登場，這是歷史的必然。毫無疑問，今年是人形機器人的爆發年。網友銳評：機器人的進步，讓今年看起來像人類的開幕式動作、自由度遠超人類，但這真不是恐怖片？影片一開始，Atlas平靜地躺在地上，看起來應該是仰面朝天。接下來，讓人驚掉下巴

特斯拉機器人進廠打工，馬斯克：手的自由度今年將達到22個！ May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐，已經可以在工廠裡打工了。正常速度下，它分揀電池（特斯拉的4680電池）是這樣的：官方還放出了20倍速下的樣子——在小小的「工位」上，揀啊揀啊揀：這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作，是完全自主的，全程沒有人為的干預。而且在Optimus的視角之下，它還可以把放歪了的電池重新撿起來放置，主打一個自動糾錯：對於Optimus的手，英偉達科學家JimFan給出了高度的評價：Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

FisheyeDetNet：首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題，其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而，利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大，標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述，我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示，並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型，並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

$牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24)$ 牛津大學最新！ Mickey：3D中的2D影像匹配SOTA！ (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結：https://nianticlabs.github.io/mickey/給定兩張圖片，可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常，這些對應關係是二維到二維的，而我們估計的姿態在尺度上是不確定的。一些應用，例如隨時隨地實現即時增強現實，需要尺度度量的姿態估計，因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey，這是一個關鍵點匹配流程，能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配，我們能夠在沒有深度測試的情況下推斷度量相對

See all articles

7B模型超越GPT4-V！港科大等發布「圖推理問答」資料集GITQA：視覺圖可提升推理能力

GITQA 多模態圖推理問答資料集

實驗及結果

實驗一: 基於不同模態圖資訊的模型的圖推理能力對比

視覺模式V.S.文字模態

實驗二：難度等級對圖表任務的影響

實驗三: 視覺圖的增強策略與風格偏好

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題