4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.
PDF, 웹페이지, 포스터, 엑셀 차트의 내용을 자동으로 분석할 수 있는 대형 모델은 아르바이트자에게 그리 편리하지 않습니다.
Shanghai AI Lab, Chinese University of Hong Kong 및 기타 연구 기관에서 제안한 InternLM-XComposer2-4KHD(약칭 IXC2-4KHD) 모델이 이를 현실로 만듭니다.
해상도 제한이 1500x1500 이하인 다른 멀티모달 대형 모델과 비교하여 이 작업은 멀티모달 대형 모델의 최대 입력 이미지를 4K(3840x1600) 이상 해상도로 높이고 모든 길이와 너비 비율 및 336픽셀 ~ 4K 동적 해상도가 변경됩니다.
출시 3일 만에 허깅페이스 비주얼 질문답변 모델 인기순위 1위를 차지한 모델입니다.
쉬운 4K 이미지 이해
먼저 효과를 살펴보겠습니다~
연구원이 논문 홈페이지 스크린샷을 입력했습니다(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)(해상도는 2550x3300) ), 모델이 MMBench에서 가장 높은 성능을 보이는 논문이 무엇인지 물었습니다.
이 정보는 입력 스크린샷의 텍스트 부분에는 언급되지 않고 다소 복잡한 방사형 차트에서만 나타납니다. 이렇게 까다로운 질문에 직면한 IXC2-4KHD는 레이더 차트의 정보를 성공적으로 이해하고 질문에 정확하게 답했습니다.
보다 극단적인 해상도의 이미지 입력(816 x 5133)에 직면한 IXC2-4KHD는 이미지가 7개의 부분으로 구성되어 있음을 쉽게 이해하고 각 부분에 포함된 텍스트 정보 내용을 정확하게 설명합니다.
이후 연구원들은 16개의 다중 모드 대형 모델 평가 지표에서 IXC2-4KHD의 기능을 종합적으로 테스트했으며, 그 중 5개의 평가(DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench)는 고해상도에 중점을 두었습니다. 모델 속도 이미지 이해 능력.
7B 매개변수만 사용하여 IXC2-4KHD는 10가지 평가에서 GPT4V 및 Gemini Pro와 비슷하거나 심지어 능가하는 결과를 달성하여 고해상도 이미지 이해에만 국한되지 않고 다양한 작업 및 시나리오 능력에 다재다능하다는 것을 입증했습니다. .
Δ7B 매개변수만 사용하는 IXC2-4KHD의 성능은 GPT-4V 및 Gemini-Pro와 비슷합니다. 4K 동적 해상도를 달성하는 방법은 무엇입니까?
4K 동적 해상도 목표를 달성하기 위해 IXC2-4KHD에는 세 가지 주요 디자인이 포함됩니다.
(1) 동적 해상도 교육:
Δ4K 해상도 이미지 처리 전략
프레임워크 내 , 입력 이미지는 가로 세로 비율을 유지하면서 입력 영역과 최대 영역 사이의 중간 크기(55x336x336, 3840x1617 해상도에 해당) 사이의 중간 크기로 무작위로 확대됩니다.
이후 이미지는 자동으로 여러 336x336 영역으로 절단되어 각각의 시각적 특징을 추출합니다. 이 동적 해상도 훈련 전략을 통해 모델은 모든 해상도의 시각적 입력에 적응하는 동시에 고해상도 훈련 데이터가 부족한 문제를 보완할 수 있습니다.
실험에 따르면 동적 해상도 상한이 높아질수록 모델은 고해상도 이미지 이해 작업(InfographicVQA, DocVQA, TextVQA)에서 안정적인 성능 향상을 달성하지만, 4K 해상도에서는 여전히 상한에 도달하지 않아 추가 성장 가능성을 보여줍니다. 더 높은 해상도로 확장하세요.
(2) 타일 레이아웃 정보 추가:
모델이 변화하는 동적 해상도에 적응할 수 있도록 하기 위해 연구원들은 타일 레이아웃 정보를 추가 입력으로 추가해야 한다는 것을 발견했습니다. 이를 달성하기 위해 연구원들은 간단한 전략을 채택했습니다. 타일의 각 행 뒤에 특수 '개행'('n') 토큰을 삽입하여 타일의 레이아웃 모델을 알려줍니다. 실험에 따르면 타일 레이아웃 정보를 추가하면 상대적으로 작은 변화(HD9는 타일 영역 수가 9를 초과하지 않음을 나타냄)로 동적 해상도 훈련에 거의 영향을 미치지 않지만 동적 4K 해상도 훈련에는 상당한 성능 향상을 가져올 수 있습니다.
(3) 추론 단계 중 해상도 확장
연구원들은 또한 동적 해상도를 사용하는 모델이 최대 타일 상한을 늘려 추론 단계 중에 해상도를 직접 확장하고 추가적인 성능 향상을 가져올 수 있음을 발견했습니다. 예를 들어 HD16을 사용하여 HD9(최대 9개 블록)에서 훈련된 모델을 직접 테스트하면 InfographicVQA에서 최대 8%의 성능 향상을 관찰할 수 있습니다.
IXC2-4KHD는 다중 모드 대형 모델이 지원하는 해상도를 4K 수준으로 높입니다. 연구원들은 타일 수를 늘려 더 큰 이미지 입력을 지원하는 현재 전략이 계산 비용과 메모리 제약에 직면한다고 말했습니다. 향후 더 높은 해상도 지원을 달성하기 위해 보다 효율적인 전략을 제안할 계획입니다.
논문 링크:
https://arxiv.org/pdf/2404.06512.pdf
프로젝트 링크:
https://github.com/InternLM/InternLM-XComposer
—끝—
보내주세요 귀하의 제출물 이메일 주소:
ai@qbitai.com
제목을 표시하고 다음을 알려주십시오:
당신은 누구이며, 어디 출신이며, 제출 내용
논문/프로젝트 홈페이지 링크 및 연락처를 첨부하십시오.
최대한 답장을 보내드리겠습니다
여기를 클릭해 저를 팔로우하고 별표를 표시하세요~
클릭 세 번으로 "공유", "좋아요", "시청"이 가능합니다
매일 만나요 최첨단 과학기술의 진보에~
위 내용은 4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











H5 프로젝트를 실행하려면 다음 단계가 필요합니다. Web Server, Node.js, 개발 도구 등과 같은 필요한 도구 설치. 개발 환경 구축, 프로젝트 폴더 작성, 프로젝트 초기화 및 코드 작성. 개발 서버를 시작하고 명령 줄을 사용하여 명령을 실행하십시오. 브라우저에서 프로젝트를 미리보고 개발 서버 URL을 입력하십시오. 프로젝트 게시, 코드 최적화, 프로젝트 배포 및 웹 서버 구성을 설정하십시오.

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

GiteEpages 정적 웹 사이트 배포 실패 : 404 오류 문제 해결 및 해결시 Gitee ...

Beegoorm 프레임 워크에서 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? 많은 Beego 프로젝트에서는 여러 데이터베이스를 동시에 작동해야합니다. Beego를 사용할 때 ...

GO의 어떤 라이브러리가 대기업이나 잘 알려진 오픈 소스 프로젝트에서 개발 했습니까? GO에 프로그래밍 할 때 개발자는 종종 몇 가지 일반적인 요구를 만납니다.

Go Language에서 메시지 대기열을 구현하기 위해 Redisstream을 사용하는 문제는 Go Language와 Redis를 사용하는 것입니다 ...

코드 취약점, 브라우저 호환성, 성능 최적화, 보안 업데이트 및 사용자 경험 개선과 같은 요소로 인해 H5 페이지를 지속적으로 유지해야합니다. 효과적인 유지 관리 방법에는 완전한 테스트 시스템 설정, 버전 제어 도구 사용, 페이지 성능을 정기적으로 모니터링하고 사용자 피드백 수집 및 유지 관리 계획을 수립하는 것이 포함됩니다.

Go Language Development에서 맞춤형 패키지를 올바르게 소개하는 것이 중요한 단계입니다. 이 기사는 "Golang ...
