在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。
尽管目前在图表理解领域中,最先进的模型在简单测试集上表现出色,但是由于它们缺乏语言理解和输出能力,因此无法胜任更为复杂的问答任务。另一方面,基于大语言模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上的持续进步
近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集,并训练了一个专注于图表理解和生成任务的多模态大型语言模型。ChartLlama 结合了语言处理与图表生成等多重性能,为科研工作者和相关专业人员提供了一个强大的研究工具。
论文地址:https://arxiv.org/abs/2311.16483
主页地址:https://tingxueronghua.github.io/ChartLlama/
ChartLlama团队设计了一种巧妙的多元化数据收集策略,利用GPT-4生成具有特定主题、分布和趋势的数据,以确保数据集的多样性。该团队结合了开源的绘图库和GPT-4的编程能力,编写出精确的图表代码,以生成准确的图形化数据表示。此外,团队还使用GPT-4描述图表内容并生成问答对,为每个图表生成了丰富多样的训练样本,以确保经过训练的模型能够充分理解图表
在图表理解领域,传统模型只能完成一些简单的问题,如读取数字等简单的问答任务,无法回答较为复杂的问题。这些模型难以跟随较长的指令,同时在涉及数学运算的问答中,也常常出现运算错误。相比之下,ChartLlama 可以有效地避免这些问题,具体对比如下:
除了传统任务外,研究团队还定义了若干新任务,其中包括三个任务涉及到图表生成。该论文提供了相关示例:
给定图表和指令,进行图表重建与图表编辑的示例
生成图表示例的过程是根据指令和原始数据进行的
ChartLlama 在各种基准数据集上表现出色,达到了最先进的水平,而且所需的训练数据量也较少。它采用了灵活的数据生成和收集方法,大大扩展了图表理解和生成任务中的图表类型和任务种类,为该领域的发展作出了推动
ChartLlama 设计了一种灵活的数据收集方法,利用 GPT-4 的强大语言能力和编程能力,创建了丰富的多模态图表数据集。
ChartLlama 的数据收集包括三个主要阶段:
使用上述步骤,ChartLlama 已经建立了一个包含多种任务和多种图表类型的数据集。 不同类型的任务和图表在总数据集中所占的比例如下:
请参考论文原文以获取更详细的指令和说明
无论是传统任务还是新的任务,ChartLlama 都展现了最优越的性能。传统任务包括图表问答、图表总结,以及图表的结构化数据提取。对比 ChartLlama 和此前最先进的模型,结果如下图所示:
研究人员还评估了ChartLlama独有的任务能力,包括生成图表代码、总结图表和编辑图表。他们还创建了相应任务的测试集,并与目前最强大的开源图文模型LLaVA-1.5进行了对比。以下是结果:
研究团队在各种不同类型的图表中测试了ChartLlama的问答准确率,并将其与之前的SOTA模型Unichart和提出的基线模型进行了比较,结果如下:
总的来说,ChartLlama 不仅推动了多模态学习的边界,也为图表的理解和生成提供了更精确和高效的工具。无论是在学术写作还是在企业演示中,ChartLlama 都将使图表的理解和创造变得更加直观和高效,在生成和解读复杂视觉数据方面迈出了重要的一步。
有兴趣的读者可以前往论文原文,以获取更多研究内容
以上是深入理解图表:ChartLlama,腾讯、南洋理工等开源图表巨兽的详细内容。更多信息请关注PHP中文网其他相关文章!