이미지 이해 분야에서는 멀티모달 대형 모델이 탁월한 성능을 발휘했습니다. 그러나 업무에서 자주 처리하는 다이어그램 이해 및 생성 작업에 대해서는 기존 다중 모드 모델에 여전히 개선의 여지가 있습니다.
현재 그래프 이해 분야의 최첨단 모델은 간단한 테스트 세트에서는 좋은 성능을 발휘하지만 언어 이해 및 출력 기능이 부족하여 더 복잡한 질문 및 답변 작업을 처리할 수 없습니다. 반면에, 대규모 언어 모델을 기반으로 훈련된 다중 모달 대형 모델의 성능도 주로 그래프에 대한 훈련 샘플이 부족하기 때문에 만족스럽지 않습니다. 이러한 문제는 차트 이해 및 생성 작업에서 다중 모달 모델의 지속적인 발전을 심각하게 제한했습니다.
최근 Tencent, Nanyang Technological University 및 Southeast University는 ChartLlama를 제안했습니다. 연구팀은 고품질 그래프 데이터 세트를 생성하고 그래프 이해 및 생성 작업에 중점을 둔 다중 모드 대규모 언어 모델을 훈련했습니다. ChartLlama는 언어 처리 및 차트 생성과 같은 여러 기능을 결합하여 과학 연구자 및 관련 전문가에게 강력한 연구 도구를 제공합니다.
문서 주소: https://arxiv.org/abs/2311.16483
홈 페이지 주소: https://tingxueronghua.github.io/ChartLlama/
ChartLlama 팀은 데이터 세트의 다양성을 보장하기 위해 GPT-4를 활용하여 특정 테마, 분포 및 추세를 가진 데이터를 생성하는 영리하고 다양한 데이터 수집 전략입니다. 팀은 오픈 소스 플로팅 라이브러리와 GPT-4의 프로그래밍 기능을 결합하여 정확한 차트 작성 코드를 작성하여 정확한 그래픽 데이터 표현을 생성했습니다. 또한 팀에서는 GPT-4를 사용하여 차트 콘텐츠를 설명하고 질문 및 답변 쌍을 생성하여 각 차트에 대한 풍부하고 다양한 교육 샘플을 생성하여 훈련된 모델이 차트를 완전히 이해할 수 있도록 보장합니다
차트 이해 분야에서 기존 모델은 숫자 읽기와 같은 간단한 질문 및 답변 작업과 같은 몇 가지 간단한 질문만 완료할 수 있으며 더 복잡한 질문에는 답변할 수 없습니다. 이러한 모델은 긴 지침을 따르는 데 어려움을 겪고 수학적 연산과 관련된 질문과 답변에서 종종 오류를 범합니다. 이에 비해 ChartLlama는 이러한 문제를 효과적으로 방지할 수 있습니다. 구체적인 비교는 다음과 같습니다.
연구팀은 기존 작업 외에도 차트 생성과 관련된 세 가지 작업을 포함하여 몇 가지 새로운 작업도 정의했습니다. 이 논문에서는 관련 예제를 제공합니다.
차트와 지침, 차트 재구성 및 차트 편집의 예
차트 예제 생성 프로세스는 지침과 원시 데이터를 기반으로 합니다.
ChartLlama는 수행합니다. 다양한 벤치마크 데이터 세트에서 우수한 성능을 발휘하여 더 적은 양의 훈련 데이터가 필요하면서도 최첨단 성능을 발휘합니다. 유연한 데이터 생성 및 수집 방식을 채택하여 차트 이해 및 생성 작업에서 차트 유형 및 작업 유형을 대폭 확장하고 현장의 발전을 촉진합니다
ChartLlama가 유연한 데이터 수집을 설계했습니다. 방법은 GPT-4의 강력한 언어 및 프로그래밍 기능을 활용하여 풍부한 다중 모드 차트 데이터 세트를 생성합니다.
ChartLlama의 데이터 수집은 세 가지 주요 단계로 구성됩니다.
사용 위 단계를 통해 ChartLlama는 여러 작업과 여러 차트 유형이 포함된 데이터 세트를 구축했습니다. 전체 데이터 세트에서 다양한 유형의 작업과 그래프의 비율은 다음과 같습니다.
자세한 지침과 지침은 논문의 원본 텍스트를 참조하세요
전통적인 작업이든 새로운 작업이든 ChartLlama는 최고의 성능을 보여줍니다. 전통적인 작업에는 차트 질문 및 답변, 차트 요약, 차트의 구조화된 데이터 추출이 포함됩니다. ChartLlama를 기존 최신 모델과 비교한 결과는 아래 그림과 같습니다.
연구원들은 차트 코드 생성, 차트 요약, 차트 편집 등 ChartLlama 고유의 작업 기능도 평가했습니다. 또한 해당 작업에 대한 테스트 세트를 생성하고 이를 현재 가장 강력한 오픈 소스 그래픽 및 텍스트 모델인 LLaVA-1.5와 비교했습니다. 결과는 다음과 같습니다.
연구팀은 다양한 유형의 차트에서 ChartLlama의 질문 답변 정확도를 테스트하고 이를 이전 SOTA 모델인 Unichart 및 제안된 기준 모델과 비교했습니다. 결과는 다음과 같습니다.
전반적으로 ChartLlama는 다중 모드 학습의 경계를 넓힐 뿐만 아니라 차트 이해 및 생성을 위한 보다 정확하고 효율적인 도구를 제공합니다. 학술 저작물이든 기업 프리젠테이션이든 ChartLlama는 차트를 보다 직관적이고 효율적으로 이해하고 생성할 수 있도록 하여 복잡한 시각적 데이터를 생성하고 해석하는 데 중요한 진전을 이룰 것입니다.
관심 있는 독자는 논문 원문에서 더 많은 연구 내용을 확인할 수 있습니다
위 내용은 차트에 대한 심층적인 이해: ChartLlama, Tencent 및 Nanyang Polytechnic과 같은 오픈 소스 차트 거대 기업의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!