AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 우수한 작품이 있으시면 기사를 제출하시거나 제보메일로 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
최근 MLLM(다중 모드 대형 모델)은 텍스트 중심 VQA 분야, 특히 GPT4V 및 Gemini와 같은 다중 폐쇄 소스 모델에서 상당한 진전을 이루었으며 일부 측면에서는 초인적인 성능도 보여줍니다. 능력의. 그러나 오픈 소스 모델의 성능은 여전히 폐쇄 소스 모델에 비해 훨씬 뒤떨어져 있습니다. 최근 MonKey, LLaVAR, TG-Doc, ShareGPT4V 등과 같은 많은 획기적인 연구가 불충분한 지침 미세화 문제에 초점을 맞추기 시작했습니다. 튜닝 데이터. 이러한 노력이 놀라운 결과를 얻었음에도 불구하고 이미지 설명 데이터와 VQA 데이터는 서로 다른 영역에 속하며 이미지 콘텐츠 표현의 세분성 및 범위에 불일치가 여전히 남아 있습니다. 또한 합성 데이터의 크기가 상대적으로 작기 때문에 MLLM이 잠재력을 최대한 발휘할 수 없습니다.
논문 제목: TextSquare: Scaling up Text-Centric Visual Instruction Tuning
논문 주소: https://arxiv.org/abs/2404.12803
이를 줄이기 위해
VQA 데이터 생성
Square+ 전략 방법에는 자기 질문, 답변, 추론 및 자기 평가의 4단계가 포함됩니다. 자체 질문은 MLLM의 텍스트 이미지 분석 및 이해 기능을 활용하여 이미지의 텍스트 콘텐츠와 관련된 질문을 생성합니다. 자가 응답은 CoT 및 퓨샷과 같은 다양한 프롬프트 기술을 사용하여 이러한 질문에 대한 답변을 제공합니다. 자체 추론은 MLLM의 강력한 추론 기능을 사용하여 모델 이면의 추론 프로세스를 생성합니다. 자체 평가는 질문의 타당성, 이미지 텍스트 내용과의 관련성, 답변 정확성을 평가하여 데이터 품질을 개선하고 편견을 줄입니다. S 그림 1은 TextSquare와 Advanced의 폐쇄 소스와 오픈 소스 모델을 비교한 결과, 10개 텍스트에 대한 벤치마크 평균 순위가 GPT4V를 능가했습니다(2.2위 대 2.4위). 연구원들은 많은 양의 텍스트가 포함된 다양한 이미지 세트를 수집했습니다. 자연 장면, 차트, 양식, 영수증, 서적, PPT, PDF 등 다양한 공개 소스로부터 Square-10M을 구축하고, 이 데이터 세트를 기반으로 다음과 같은 텍스트 이해 중심 MLLM TextSquare-8B를 훈련했습니다.
그림 1에서 볼 수 있듯이 TextSquare-8B는 여러 벤치마크에서 GPT4V 및 Gemini와 비슷하거나 더 나은 결과를 얻을 수 있으며 다른 오픈 소스 모델을 훨씬 능가합니다. TextSquare 실험에서는 VQA 작업에 대한 추론 데이터의 긍정적인 영향을 확인하여 환각을 줄이면서 모델 성능을 향상시키는 능력을 입증했습니다.
또한 대규모 데이터 세트를 활용하여 명령 조정 데이터 크기, 훈련 수렴 손실 및 모델 성능 간의 관계가 밝혀졌습니다. 소량의 명령 조정 데이터로 MLLM을 잘 훈련할 수 있지만 명령 조정 데이터가 계속해서 확장되면 모델의 성능이 더욱 향상될 수 있으며 명령 미세 조정 데이터와 모델 사이에 해당하는 확장 법칙도 있습니다. . 합 그림 2 데이터 생성, ANSWEERING, 추론), 데이터 필터링을 포함한 VQA 데이터 합성 과정그림 3 Square-10M 이미지 배포 및 QA 배포 세부 사항
data 컬렉션
데이터 수집 전략의 주요 목표는 텍스트가 많은 다양한 실제 시나리오를 포괄하는 것입니다. 이를 위해 연구원들은 380만 개의 텍스트가 풍부한 이미지를 수집했습니다. 이러한 이미지는 서로 다른 특성을 나타냅니다. 예를 들어 차트와 표는 밀집된 통계 정보가 포함된 텍스트 요소에 중점을 두고 있습니다. PPT, 스크린샷 및 웹 이미지는 텍스트와 강조 표시된 시각적 정보, 영수증 및 이미지가 포함된 전자 상거래 간의 상호 작용을 위해 설계되었습니다. 상세하고 조밀한 텍스트로 구성된 거리 뷰는 자연스러운 장면에서 파생됩니다. 수집된 이미지는 현실 세계의 텍스트 요소 매핑을 형성하고 텍스트 중심 VQA 연구의 기초를 형성합니다.
데이터 생성
연구원은 Gemini Pro의 다중 모드 이해 기능을 사용하여 특정 데이터 소스에서 이미지를 선택하고 자가 질문, 자가 응답, 자가 추론의 3단계를 통해 VQA 및 추론 컨텍스트 쌍을 생성합니다.
자기 질문: 이 단계에서 Gemini Pro는 이러한 프롬프트를 기반으로 이미지에 대한 포괄적인 분석을 수행하고 이해를 바탕으로 의미 있는 질문을 생성합니다. 일반적인 MLLM의 텍스트 요소 이해 능력은 일반적으로 시각적 모델에 비해 약하다는 점을 고려하여 추출된 텍스트를 특화된 OCR 모델을 통해 프롬프트로 전처리합니다.
자체 답변: Gemini Pro는 CoT(사고 연쇄) 및 Few-Shot 프롬프트(Few-Shot 프롬프트) 및 기타 기술을 사용하여 상황 정보를 풍부하게 하고 생성된 답변의 신뢰성을 향상시키는 질문을 생성합니다.
자기 추론: 이 단계에서는 답변에 대한 자세한 이유를 생성하여 Gemini Pro가 질문과 시각적 요소 사이의 연결에 대해 더 많이 생각하게 함으로써 착각을 줄이고 정확한 답변을 향상시킵니다.
데이터 필터링
자기 질문, 답변, 추론이 효과적이지만 생성된 이미지-텍스트 쌍은 환상적 콘텐츠, 의미 없는 질문, 잘못된 답변에 직면할 수 있습니다. 따라서 우리는 고품질 VQA 쌍을 선택하기 위해 LLM의 평가 기능을 기반으로 필터링 규칙을 설계합니다.
자체 평가는 Gemini Pro 및 기타 MLLM이 생성된 질문이 의미가 있는지, 답변이 문제를 올바르게 해결하기에 충분한지 여부를 판단하도록 유도합니다.
다중 프롬프트 일관성 생성된 콘텐츠를 직접 평가하는 것 외에도 연구자는 데이터 생성 시 프롬프트와 컨텍스트 공간을 수동으로 추가합니다. 정확하고 의미 있는 VQA 쌍은 서로 다른 프롬프트가 제공될 때 의미상 일관되어야 합니다.
다중 컨텍스트 일관성 연구원은 질문 전에 다양한 컨텍스트 정보를 준비하여 VQA 쌍을 추가로 검증했습니다.
TextSquare-8B
TextSquare-8B는 CLIP ViT-L-14-336의 시각적 인코더를 포함하여 InternLM-Xcomposer2의 모델 구조를 사용하며 이미지 해상도가 700으로 더욱 높아졌습니다. InternLM2-7B-ChatSFT 시각적 토큰과 텍스트 토큰을 정렬하는 대형 언어 모델 LLM입니다.
TextSquare-8B의 훈련에는 SFT의 3단계가 포함됩니다.
첫 번째 단계에서는 490 해상도의 전체 매개변수(Vision Encoder, Projector, LLM)를 사용하여 모델을 미세 조정합니다.
두 번째 단계에서는 입력 해상도를 700으로 높이고 Vision Encoder만 해상도 변경에 적응하도록 학습합니다.
3단계에서는 해상도 700에서 전체 매개변수 미세 조정이 추가로 수행됩니다.
TextSquare는 Square-10M 데이터세트를 기반으로 8B 매개변수와 일반 크기 이미지 해상도를 갖춘 모델이 대부분의 MLLM, 심지어 비공개 소스 모델(GPT4V, Gemini Pro)보다 텍스트 중심 VQA에서 더 나은 성능을 달성할 수 있음을 확인합니다.
실험 결과
그림 4(a)는 TextSquare에 간단한 연산 기능이 있음을 보여줍니다. 그림 4(b)는 텍스트 내용을 이해하고 밀집된 텍스트에서 대략적인 위치를 제공하는 기능을 보여줍니다. 그림 4(c)는 TextSquare의 테이블 구조 이해 능력을 보여줍니다.
MLLM Benchmark
Document-Oriented Benchmark 문서 장면 VQA Benckmark(DocVQA, ChartQA, InfographicVQA)에서 평균 개선율은 3.5%로 모든 오픈 소스보다 우수합니다. 모델, ChartQA 데이터에서 이 모델의 해상도는 GPT4V 및 Gemini Pro보다 약간 높으며 이는 대부분의 문서 지향 MLLM보다 작습니다. 해상도가 더 향상되면 모델 성능도 더 향상될 것이라고 믿습니다. .몽키가 이를 입증했습니다.
Scene Text-centric Benchmark 자연 장면의 VQA 벤치마크(TextVQA, AI2D)에서는 SOTA 결과를 얻었으나 기본 Xcomposer2와 비교해 큰 개선은 없습니다. 도메인 데이터가 완전히 최적화되었습니다.
Table VQA Benchmark 테이블 장면의 VQA 벤치마크(WTQ, TabFact)에서는 GPT4V와 Gemini Pro를 훨씬 능가하는 결과를 달성했으며, 다른 SOTA 모델을 각각 3% 앞섰습니다.
텍스트 중심 KIE 벤치마크 KIE 작업 벤치마크(SROIE, POIE)에서 텍스트 센터의 핵심 정보를 추출하고, KIE 작업을 VQA 작업으로 변환하고, 두 데이터 세트 모두에서 최고의 성능을 달성합니다. 평균 14.8% 개선.
OCRBench 텍스트 인식, 수식 인식, 텍스트 중심 VQA, KIE 등 OCR 관련 평가 과제 29개를 포함해 오픈소스 모델 중 최고 성능을 달성했으며, 세계 최초 10B 매개변수 양이 됐다. 모델 600점 달성.
일반 VQA 및 환각 평가 벤치마크 Xconposer2와 비교하여 TextSquare는 큰 저하가 없으며 여전히 일반 VQA 벤치마크(VizWiz VQAv2, GQA, POPE 쇼)에서 최고의 성능을 유지합니다. 최상의 방법보다 3.6% 더 높은 상당한 성능을 보여 모델 환각을 완화하는 방법의 효과를 강조합니다.
절제 실험
TextSquare는 Xcomposer2와 비교하여 각 벤치마크에서 평균 7.7% 향상된 성능을 보였습니다.
자체 평가를 추가한 후 모델 성능이 크게 향상되었습니다.
추론 데이터를 추가하면 성능을 크게 향상하고 환각 발생을 줄이는 데 도움이 될 수 있습니다.
데이터 규모와 수렴 손실 및 모델 성능 관계
데이터 규모가 커질수록 모델의 손실은 계속 감소하고 감소 속도는 점차 느려집니다. 수렴 손실과 명령어 스케일링 데이터 간의 관계는 로그 함수에 가깝습니다.
명령 튜닝 데이터가 증가함에 따라 모델의 성능은 점점 좋아지고 있지만 증가율은 계속 둔화되어 대략 로그 함수와 일치합니다.
일반적으로 텍스트 중심 VQA 시나리오에는 명령 조정 단계에 해당 스케일링 법칙이 있습니다. 여기서 모델 성능은 데이터 스케일링의 로그에 비례하며, 이는 잠재적으로 더 큰 데이터 세트 구성을 안내하고 모델을 예측할 수 있습니다. 성능.
요약
이 기사에서 연구원은 고품질 텍스트 중심 명령어 튜닝 데이터 세트(Square-10M)를 구성하는 Square 전략을 제안합니다. 이 데이터 세트를 사용하여 TextSquare-8B는 여러 벤치마크에서 좋은 성능을 발휘합니다. GPT4V에 필적하는 성능을 달성하고 다양한 벤치마크에서 최근 출시된 오픈 소스 모델을 크게 능가합니다.
또한 연구원들은 명령 조정 데이터 세트 크기, 수렴 손실 및 모델 성능 사이의 관계를 도출하여 더 큰 데이터 세트를 구축할 수 있는 길을 열었고, 데이터의 양과 품질이 모델 성능에 중요하다는 것을 확인했습니다.
마지막으로, 오픈 소스 모델과 선도 모델 간의 격차를 줄이기 위해 데이터의 양과 질을 더욱 향상시키는 방법이 매우 유망한 연구 방향으로 간주된다는 점을 연구원들은 지적했습니다.
위 내용은 8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!