8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

PHPz

Apr 25, 2024 pm 06:16 PM

composer 프로젝트 square

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 우수한 작품이 있으시면 기사를 제출하시거나 제보메일로 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

최근 MLLM(다중 모드 대형 모델)은 텍스트 중심 VQA 분야, 특히 GPT4V 및 Gemini와 같은 다중 폐쇄 소스 모델에서 상당한 진전을 이루었으며 일부 측면에서는 초인적인 성능도 보여줍니다. 능력의. 그러나 오픈 소스 모델의 성능은 여전히 폐쇄 소스 모델에 비해 훨씬 뒤떨어져 있습니다. 최근 MonKey, LLaVAR, TG-Doc, ShareGPT4V 등과 같은 많은 획기적인 연구가 불충분한 지침 미세화 문제에 초점을 맞추기 시작했습니다. 튜닝 데이터. 이러한 노력이 놀라운 결과를 얻었음에도 불구하고 이미지 설명 데이터와 VQA 데이터는 서로 다른 영역에 속하며 이미지 콘텐츠 표현의 세분성 및 범위에 불일치가 여전히 남아 있습니다. 또한 합성 데이터의 크기가 상대적으로 작기 때문에 MLLM이 잠재력을 최대한 발휘할 수 없습니다.

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

논문 제목: TextSquare: Scaling up Text-Centric Visual Instruction Tuning
논문 주소: https://arxiv.org/abs/2404.12803

이를 줄이기 위해

VQA 데이터 생성

Square+ 전략 방법에는 자기 질문, 답변, 추론 및 자기 평가의 4단계가 포함됩니다. 자체 질문은 MLLM의 텍스트 이미지 분석 및 이해 기능을 활용하여 이미지의 텍스트 콘텐츠와 관련된 질문을 생성합니다. 자가 응답은 CoT 및 퓨샷과 같은 다양한 프롬프트 기술을 사용하여 이러한 질문에 대한 답변을 제공합니다. 자체 추론은 MLLM의 강력한 추론 기능을 사용하여 모델 이면의 추론 프로세스를 생성합니다. 자체 평가는 질문의 타당성, 이미지 텍스트 내용과의 관련성, 답변 정확성을 평가하여 데이터 품질을 개선하고 편견을 줄입니다. S 그림 1은 TextSquare와 Advanced의 폐쇄 소스와 오픈 소스 모델을 비교한 결과, 10개 텍스트에 대한 벤치마크 평균 순위가 GPT4V를 능가했습니다(2.2위 대 2.4위). 연구원들은 많은 양의 텍스트가 포함된 다양한 이미지 세트를 수집했습니다. 자연 장면, 차트, 양식, 영수증, 서적, PPT, PDF 등 다양한 공개 소스로부터 Square-10M을 구축하고, 이 데이터 세트를 기반으로 다음과 같은 텍스트 이해 중심 MLLM TextSquare-8B를 훈련했습니다.

그림 1에서 볼 수 있듯이 TextSquare-8B는 여러 벤치마크에서 GPT4V 및 Gemini와 비슷하거나 더 나은 결과를 얻을 수 있으며 다른 오픈 소스 모델을 훨씬 능가합니다. TextSquare 실험에서는 VQA 작업에 대한 추론 데이터의 긍정적인 영향을 확인하여 환각을 줄이면서 모델 성능을 향상시키는 능력을 입증했습니다. 8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

또한 대규모 데이터 세트를 활용하여 명령 조정 데이터 크기, 훈련 수렴 손실 및 모델 성능 간의 관계가 밝혀졌습니다. 소량의 명령 조정 데이터로 MLLM을 잘 훈련할 수 있지만 명령 조정 데이터가 계속해서 확장되면 모델의 성능이 더욱 향상될 수 있으며 명령 미세 조정 데이터와 모델 사이에 해당하는 확장 법칙도 있습니다. . 합 그림 2 데이터 생성, ANSWEERING, 추론), 데이터 필터링을 포함한 VQA 데이터 합성 과정

그림 3 Square-10M 이미지 배포 및 QA 배포 세부 사항

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다. data 컬렉션

데이터 수집 전략의 주요 목표는 텍스트가 많은 다양한 실제 시나리오를 포괄하는 것입니다. 이를 위해 연구원들은 380만 개의 텍스트가 풍부한 이미지를 수집했습니다. 이러한 이미지는 서로 다른 특성을 나타냅니다. 예를 들어 차트와 표는 밀집된 통계 정보가 포함된 텍스트 요소에 중점을 두고 있습니다. PPT, 스크린샷 및 웹 이미지는 텍스트와 강조 표시된 시각적 정보, 영수증 및 이미지가 포함된 전자 상거래 간의 상호 작용을 위해 설계되었습니다. 상세하고 조밀한 텍스트로 구성된 거리 뷰는 자연스러운 장면에서 파생됩니다. 수집된 이미지는 현실 세계의 텍스트 요소 매핑을 형성하고 텍스트 중심 VQA 연구의 기초를 형성합니다.

데이터 생성

연구원은 Gemini Pro의 다중 모드 이해 기능을 사용하여 특정 데이터 소스에서 이미지를 선택하고 자가 질문, 자가 응답, 자가 추론의 3단계를 통해 VQA 및 추론 컨텍스트 쌍을 생성합니다.

자기 질문: 이 단계에서 Gemini Pro는 이러한 프롬프트를 기반으로 이미지에 대한 포괄적인 분석을 수행하고 이해를 바탕으로 의미 있는 질문을 생성합니다. 일반적인 MLLM의 텍스트 요소 이해 능력은 일반적으로 시각적 모델에 비해 약하다는 점을 고려하여 추출된 텍스트를 특화된 OCR 모델을 통해 프롬프트로 전처리합니다.
자체 답변: Gemini Pro는 CoT(사고 연쇄) 및 Few-Shot 프롬프트(Few-Shot 프롬프트) 및 기타 기술을 사용하여 상황 정보를 풍부하게 하고 생성된 답변의 신뢰성을 향상시키는 질문을 생성합니다.
자기 추론: 이 단계에서는 답변에 대한 자세한 이유를 생성하여 Gemini Pro가 질문과 시각적 요소 사이의 연결에 대해 더 많이 생각하게 함으로써 착각을 줄이고 정확한 답변을 향상시킵니다.

데이터 필터링

자기 질문, 답변, 추론이 효과적이지만 생성된 이미지-텍스트 쌍은 환상적 콘텐츠, 의미 없는 질문, 잘못된 답변에 직면할 수 있습니다. 따라서 우리는 고품질 VQA 쌍을 선택하기 위해 LLM의 평가 기능을 기반으로 필터링 규칙을 설계합니다.

자체 평가는 Gemini Pro 및 기타 MLLM이 생성된 질문이 의미가 있는지, 답변이 문제를 올바르게 해결하기에 충분한지 여부를 판단하도록 유도합니다.
다중 프롬프트 일관성 생성된 콘텐츠를 직접 평가하는 것 외에도 연구자는 데이터 생성 시 프롬프트와 컨텍스트 공간을 수동으로 추가합니다. 정확하고 의미 있는 VQA 쌍은 서로 다른 프롬프트가 제공될 때 의미상 일관되어야 합니다.
다중 컨텍스트 일관성 연구원은 질문 전에 다양한 컨텍스트 정보를 준비하여 VQA 쌍을 추가로 검증했습니다.

TextSquare-8B

TextSquare-8B는 CLIP ViT-L-14-336의 시각적 인코더를 포함하여 InternLM-Xcomposer2의 모델 구조를 사용하며 이미지 해상도가 700으로 더욱 높아졌습니다. InternLM2-7B-ChatSFT 시각적 토큰과 텍스트 토큰을 정렬하는 대형 언어 모델 LLM입니다.

TextSquare-8B의 훈련에는 SFT의 3단계가 포함됩니다.

첫 번째 단계에서는 490 해상도의 전체 매개변수(Vision Encoder, Projector, LLM)를 사용하여 모델을 미세 조정합니다.

두 번째 단계에서는 입력 해상도를 700으로 높이고 Vision Encoder만 해상도 변경에 적응하도록 학습합니다.

3단계에서는 해상도 700에서 전체 매개변수 미세 조정이 추가로 수행됩니다.

TextSquare는 Square-10M 데이터세트를 기반으로 8B 매개변수와 일반 크기 이미지 해상도를 갖춘 모델이 대부분의 MLLM, 심지어 비공개 소스 모델(GPT4V, Gemini Pro)보다 텍스트 중심 VQA에서 더 나은 성능을 달성할 수 있음을 확인합니다.

실험 결과

그림 4(a)는 TextSquare에 간단한 연산 기능이 있음을 보여줍니다. 그림 4(b)는 텍스트 내용을 이해하고 밀집된 텍스트에서 대략적인 위치를 제공하는 기능을 보여줍니다. 그림 4(c)는 TextSquare의 테이블 구조 이해 능력을 보여줍니다.

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

MLLM Benchmark

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

Document-Oriented Benchmark 문서 장면 VQA Benckmark(DocVQA, ChartQA, InfographicVQA)에서 평균 개선율은 3.5%로 모든 오픈 소스보다 우수합니다. 모델, ChartQA 데이터에서 이 모델의 해상도는 GPT4V 및 Gemini Pro보다 약간 높으며 이는 대부분의 문서 지향 MLLM보다 작습니다. 해상도가 더 향상되면 모델 성능도 더 향상될 것이라고 믿습니다. .몽키가 이를 입증했습니다.
Scene Text-centric Benchmark 자연 장면의 VQA 벤치마크(TextVQA, AI2D)에서는 SOTA 결과를 얻었으나 기본 Xcomposer2와 비교해 큰 개선은 없습니다. 도메인 데이터가 완전히 최적화되었습니다.
Table VQA Benchmark 테이블 장면의 VQA 벤치마크(WTQ, TabFact)에서는 GPT4V와 Gemini Pro를 훨씬 능가하는 결과를 달성했으며, 다른 SOTA 모델을 각각 3% 앞섰습니다.
텍스트 중심 KIE 벤치마크 KIE 작업 벤치마크(SROIE, POIE)에서 텍스트 센터의 핵심 정보를 추출하고, KIE 작업을 VQA 작업으로 변환하고, 두 데이터 세트 모두에서 최고의 성능을 달성합니다. 평균 14.8% 개선.
OCRBench 텍스트 인식, 수식 인식, 텍스트 중심 VQA, KIE 등 OCR 관련 평가 과제 29개를 포함해 오픈소스 모델 중 최고 성능을 달성했으며, 세계 최초 10B 매개변수 양이 됐다. 모델 600점 달성.

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

일반 VQA 및 환각 평가 벤치마크 Xconposer2와 비교하여 TextSquare는 큰 저하가 없으며 여전히 일반 VQA 벤치마크(VizWiz VQAv2, GQA, POPE 쇼)에서 최고의 성능을 유지합니다. 최상의 방법보다 3.6% 더 높은 상당한 성능을 보여 모델 환각을 완화하는 방법의 효과를 강조합니다.

절제 실험

TextSquare는 Xcomposer2와 비교하여 각 벤치마크에서 평균 7.7% 향상된 성능을 보였습니다.

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

자체 평가를 추가한 후 모델 성능이 크게 향상되었습니다.

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

추론 데이터를 추가하면 성능을 크게 향상하고 환각 발생을 줄이는 데 도움이 될 수 있습니다.

데이터 규모와 수렴 손실 및 모델 성능 관계

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

데이터 규모가 커질수록 모델의 손실은 계속 감소하고 감소 속도는 점차 느려집니다. 수렴 손실과 명령어 스케일링 데이터 간의 관계는 로그 함수에 가깝습니다.

명령 튜닝 데이터가 증가함에 따라 모델의 성능은 점점 좋아지고 있지만 증가율은 계속 둔화되어 대략 로그 함수와 일치합니다.

일반적으로 텍스트 중심 VQA 시나리오에는 명령 조정 단계에 해당 스케일링 법칙이 있습니다. 여기서 모델 성능은 데이터 스케일링의 로그에 비례하며, 이는 잠재적으로 더 큰 데이터 세트 구성을 안내하고 모델을 예측할 수 있습니다. 성능.

요약

이 기사에서 연구원은 고품질 텍스트 중심 명령어 튜닝 데이터 세트(Square-10M)를 구성하는 Square 전략을 제안합니다. 이 데이터 세트를 사용하여 TextSquare-8B는 여러 벤치마크에서 좋은 성능을 발휘합니다. GPT4V에 필적하는 성능을 달성하고 다양한 벤치마크에서 최근 출시된 오픈 소스 모델을 크게 능가합니다.

또한 연구원들은 명령 조정 데이터 세트 크기, 수렴 손실 및 모델 성능 사이의 관계를 도출하여 더 큰 데이터 세트를 구축할 수 있는 길을 열었고, 데이터의 양과 품질이 모델 성능에 중요하다는 것을 확인했습니다.

마지막으로, 오픈 소스 모델과 선도 모델 간의 격차를 줄이기 위해 데이터의 양과 질을 더욱 향상시키는 방법이 매우 유망한 연구 방향으로 간주된다는 점을 연구원들은 지적했습니다.

위 내용은 8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7554

Cakephp 튜토리얼

1382

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

작곡가로 Laravelcms를 신속하게 구축하는 방법 : MKI-LABS/ESPRESSO 실제 경험 Apr 18, 2025 am 07:36 AM

새로운 Laravel 프로젝트를 개발할 때 까다로운 문제를 겪었습니다. 완전히 기능적이고 관리하기 쉬운 컨텐츠 관리 시스템 (CMS)을 신속하게 구축하는 방법. 여러 솔루션을 시도했지만 복잡한 구성과 불편한 유지 관리로 인해 모두 포기했습니다. 설치가 간단 할뿐만 아니라 강력한 기능과 직관적 인 관리 인터페이스를 제공하는 Laravelcms 패키지 MKI-Labs/Espresso를 발견 할 때까지 내 문제를 완전히 해결했습니다.

Symfony/Console Library를 사용하여 효율적인 명령 줄 인터페이스 작성에 대한 실제 경험 Apr 18, 2025 am 07:30 AM

프로젝트 개발에서는 일상적인 작업을 단순화하거나 프로세스를 자동화하기 위해 명령 줄 도구를 작성해야합니다. 그러나 아름답고 테스트하기 쉬운 명령 줄 인터페이스를 만드는 것은 쉽지 않습니다. 최근에 저는 명령 줄 도구가 필요한 프로젝트를 개발 하면서이 문제를 겪었습니다. 약간의 탐색 후, 나는 Symfony/Console 라이브러리를 발견하여 명령 줄 인터페이스의 생성 프로세스를 크게 단순화합니다.

의존성 주입을 해결하기 위해 작곡가 사용 : PSR-11 컨테이너 인터페이스의 적용 Apr 18, 2025 am 07:39 AM

대규모 PHP 프로젝트를 개발할 때 일반적이지만 까다로운 문제를 겪었습니다. 의존성을 효과적으로 관리하고 주입하는 방법. 처음에는 글로벌 변수와 수동 주입을 사용하려고 시도했지만 코드의 복잡성을 증가시킬뿐만 아니라 오류가 쉽게 이어졌습니다. 마지막으로 PSR-11 컨테이너 인터페이스와 작곡가의 전력을 사용 하여이 문제를 성공적으로 해결했습니다.

작곡가를 사용하여 YII 프레임 워크에서 데이터의 배치 처리 문제를 해결하는 방법 Apr 18, 2025 am 07:54 AM

YII 프레임 워크 프로젝트를 개발할 때는 종종 데이터베이스에서 많은 양의 데이터를 얻어야하는 상황을 만나게됩니다. 적절한 조치를 취하지 않으면 모든 데이터를 직접 얻으면 메모리 오버플로가 발생하고 프로그램 성능에 영향을 줄 수 있습니다. 최근에 대규모 전자 상거래 플랫폼에 대한 프로젝트를 다룰 때이 문제가 발생했습니다. 약간의 연구 및 시험 후, 나는 Pavle/YII-Batch-Result의 확장 라이브러리를 통해 문제를 해결했습니다.

작곡가를 사용하여 HTTP 요청 문제 : Yiche/HTTP 라이브러리에 대한 실용 가이드 Apr 18, 2025 am 08:06 AM

개발 중에 HTTP 요청이 종종 필요하며, 이는 데이터를 가져 오거나 데이터를 보내거나 외부 API와 상호 작용하는 것일 수 있습니다. 그러나 복잡한 네트워크 환경과 변경 요청 요구 사항에 직면 할 때 HTTP 요청을 효율적으로 처리하는 방법이 어려워집니다. 프로젝트에서 문제가 발생했습니다. 요청을 다른 API에 자주 보내야하고 후속 디버깅 및 분석을 용이하게하기 위해 요청을 기록해야합니다. 몇 가지 방법을 시도한 후 Yiche/HTTP 라이브러리를 발견했습니다. HTTP 요청의 처리를 단순화 할뿐만 아니라 동적 로깅 기능을 제공하여 개발 효율성을 크게 향상시킵니다.

Silverstripe 웹 사이트의 접근성 향상 : 비행 초점 모듈의 설치 및 사용 Apr 18, 2025 am 08:09 AM

정부 웹 사이트 프로젝트를 개발할 때 어려운 문제가 발생했습니다. 특히 시각 장애가있는 사용자의 요구를 충족시키기 위해 웹 사이트의 접근성을 향상시키는 방법, 특히 시각 장애가있는 사용자, 웹 사이트 탐색 및 운영은 매우 어려울 수 있습니다. 여러 가지 방법을 시도한 후, 나는 웹 사이트의 접근성을 크게 향상시키는 FlyingFocus라는 JavaScript 라이브러리를 발견했습니다. 그러나 그것을 Silverstripe 웹 사이트에 통합하는 것은 어려운 일입니다. 다행스럽게도 DIANZ/Silverstripe-Flying-Focus 모듈을 발견하여 FlyingFocus의 통합 프로세스를 단순화하고 퍼즐을 해결했습니다.

작곡가를 사용한 JavaScript 오류 처리 문제를 해결하는 방법 Apr 18, 2025 am 08:30 AM

복잡한 웹 응용 프로그램을 개발할 때 어려운 문제가 있습니다. JavaScript 오류를 효과적으로 처리하고 로그인하는 방법. 나는 몇 가지 방법을 시도했지만 도서관 dvasilenko/alterego_tools를 발견 할 때까지 아무도 내 요구를 충족시킬 수 없었습니다. 작곡가를 통해이 라이브러리를 설치 하여이 문제를 쉽게 해결하고 프로젝트의 유지 관리 및 안정성을 크게 향상 시켰습니다. 작곡가는 다음 주소를 통해 배울 수 있습니다. 학습 주소

Otrance Translation 플랫폼의 사용 및 대안 Apr 18, 2025 am 08:45 AM

다국어 지원은 프로젝트 개발에 종종 필요하며 Otrance는 한때 매우 인기있는 솔루션이었습니다. 그러나 최근에 나는 Otrance 프로젝트가 더 이상 유지되고 업데이트되지 않는다는 것을 발견하여 프로젝트 요구를 충족시키기위한 새로운 대안을 찾아야했습니다. 다행히도 Composer는 대체 번역 플랫폼을 관리하고 설치하는 편리한 방법을 제공합니다.

See all articles

8B 텍스트 다중 모드 대형 모델 지수는 GPT4V에 가깝습니다. Byte, Huashan 및 Huake가 공동으로 TextSquare를 제안했습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제