在影像理解領域,多模態大模型已經充分展現了其卓越的性能。然而,對於工作中經常需要處理的圖表理解與生成任務,現有的多模態模型仍有進步的空間。
儘管目前在圖表理解領域中,最先進的模型在簡單測試集上表現出色,但是由於它們缺乏語言理解和輸出能力,因此無法勝任更為複雜的問答任務。另一方面,基於大語言模型訓練的多模態大模型的表現也不盡如人意,主要是由於它們缺乏對圖表的訓練樣本。這些問題嚴重限制了多模態模型在圖表理解與生成任務上的持續進步
#近期,騰訊聯合南洋理工大學、東南大學提出了 ChartLlama。研究團隊創建了一個高品質圖表資料集,並訓練了一個專注於圖表理解和生成任務的多模態大型語言模型。 ChartLlama 結合了語言處理與圖表生成等多重效能,為科學研究工作者和相關專業人員提供了一個強大的研究工具。
論文網址:https://arxiv.org/abs/2311.16483
主頁網址: https://tingxueronghua.github.io/ChartLlama/
ChartLlama團隊設計了一個巧妙的多元化資料收集策略,利用GPT-4產生具有特定主題、分佈和趨勢的數據,以確保數據集的多樣性。團隊結合了開源的繪圖庫和GPT-4的程式設計能力,編寫出精確的圖表程式碼,以產生準確的圖形化資料表示。此外,團隊還使用GPT-4描述圖表內容並產生問答對,為每個圖表產生了豐富多樣的訓練樣本,以確保經過訓練的模型能夠充分理解圖表
在圖表理解領域,傳統模型只能完成一些簡單的問題,如讀取數字等簡單的問答任務,無法回答較為複雜的問題。這些模型難以跟隨較長的指令,同時在涉及數學運算的問答中,也常出現運算錯誤。相較之下,ChartLlama 可以有效地避免這些問題,具體對比如下:
#除了傳統任務外,研究團隊還定義了若干新任務,其中包括三個任務涉及到圖表生成。論文提供了相關範例:
給定圖表和指令,進行圖表重建與圖表編輯的範例
產生圖表範例的過程是根據指令和原始資料進行的
#ChartLlama 在各種基準資料集上表現出色,達到了最先進的水平,而且所需的訓練資料量也較少。它採用了靈活的數據生成和收集方法,大大擴展了圖表理解和生成任務中的圖表類型和任務種類,為該領域的發展作出了推動
ChartLlama 設計了一種靈活的資料收集方法,利用GPT-4 的強大語言能力和程式設計能力,創建了豐富的多模態圖表資料集。
ChartLlama 的資料收集包含三個主要階段:
#使用上述步驟,ChartLlama 已經建立了一個包含多種任務和多種圖表類型的資料集。不同類型的任務和圖表在總資料集中所佔的比例如下:
#請參考論文原文以取得更詳細的指令和說明
#無論是傳統任務還是新的任務,ChartLlama 都展現了最優越的表現。傳統任務包括圖表問答、圖表總結,以及圖表的結構化資料擷取。比較 ChartLlama 和先前最先進的模型,結果如下圖所示:
研究人員也評估了ChartLlama獨有的任務能力,包括生成圖表代碼、總結圖表和編輯圖表。他們還創建了相應任務的測試集,並與目前最強大的開源圖文模型LLaVA-1.5進行了比較。以下是結果:
研究團隊在各種不同類型的圖表中測試了ChartLlama的問答準確率,並將其與先前的SOTA模型Unichart和提出的基準模型進行了比較,結果如下:
#總的來說,ChartLlama 不僅推動了多模態學習的邊界,也為圖表的理解和生成提供了更精確和高效的工具。無論是在學術寫作還是在企業演示中,ChartLlama 都將使圖表的理解和創造變得更加直觀和高效,在產生和解讀複雜視覺數據方面邁出了重要的一步。
有興趣的讀者可以前往論文原文,以獲得更多研究內容
#以上是深入理解圖表:ChartLlama,騰訊、南洋理工等開源圖表巨獸的詳細內容。更多資訊請關注PHP中文網其他相關文章!