하드웨어 튜토리얼 하드웨어 검토 4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.

4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.

Apr 23, 2024 am 08:04 AM
git composer 해결 효과 레이더 아름다운 그림 홍콩중문대학교 lab

PDF, 웹페이지, 포스터, 엑셀 차트의 내용을 자동으로 분석할 수 있는 대형 모델은 아르바이트자에게 그리 편리하지 않습니다.

Shanghai AI Lab, Chinese University of Hong Kong 및 기타 연구 기관에서 제안한 InternLM-XComposer2-4KHD(약칭 IXC2-4KHD) 모델이 이를 현실로 만듭니다.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

해상도 제한이 1500x1500 이하인 다른 멀티모달 대형 모델과 비교하여 이 작업은 멀티모달 대형 모델의 최대 입력 이미지를 4K(3840x1600) 이상 해상도로 높이고 모든 길이와 너비 비율 및 336픽셀 ~ 4K 동적 해상도가 변경됩니다.

출시 3일 만에 허깅페이스 비주얼 질문답변 모델 인기순위 1위를 차지한 모델입니다.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

쉬운 4K 이미지 이해

먼저 효과를 살펴보겠습니다~

연구원이 논문 홈페이지 스크린샷을 입력했습니다(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)(해상도는 2550x3300) ), 모델이 MMBench에서 가장 높은 성능을 보이는 논문이 무엇인지 물었습니다.

이 정보는 입력 스크린샷의 텍스트 부분에는 언급되지 않고 다소 복잡한 방사형 차트에서만 나타납니다. 이렇게 까다로운 질문에 직면한 IXC2-4KHD는 레이더 차트의 정보를 성공적으로 이해하고 질문에 정확하게 답했습니다.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

보다 극단적인 해상도의 이미지 입력(816 x 5133)에 직면한 IXC2-4KHD는 이미지가 7개의 부분으로 구성되어 있음을 쉽게 이해하고 각 부분에 포함된 텍스트 정보 내용을 정확하게 설명합니다.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

이후 연구원들은 16개의 다중 모드 대형 모델 평가 지표에서 IXC2-4KHD의 기능을 종합적으로 테스트했으며, 그 중 5개의 평가(DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench)는 고해상도에 중점을 두었습니다. 모델 속도 이미지 이해 능력.

7B 매개변수만 사용하여 IXC2-4KHD는 10가지 평가에서 GPT4V 및 Gemini Pro와 비슷하거나 심지어 능가하는 결과를 달성하여 고해상도 이미지 이해에만 국한되지 않고 다양한 작업 및 시나리오 능력에 다재다능하다는 것을 입증했습니다. .

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

Δ7B 매개변수만 사용하는 IXC2-4KHD의 성능은 GPT-4V 및 Gemini-Pro와 비슷합니다. 4K 동적 해상도를 달성하는 방법은 무엇입니까?

4K 동적 해상도 목표를 달성하기 위해 IXC2-4KHD에는 세 가지 주요 디자인이 포함됩니다.

(1) 동적 해상도 교육:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

Δ4K 해상도 이미지 처리 전략

프레임워크 내 , 입력 이미지는 가로 세로 비율을 유지하면서 입력 영역과 최대 영역 사이의 중간 크기(55x336x336, 3840x1617 해상도에 해당) 사이의 중간 크기로 무작위로 확대됩니다.

이후 이미지는 자동으로 여러 336x336 영역으로 절단되어 각각의 시각적 특징을 추출합니다. 이 동적 해상도 훈련 전략을 통해 모델은 모든 해상도의 시각적 입력에 적응하는 동시에 고해상도 훈련 데이터가 부족한 문제를 보완할 수 있습니다.

실험에 따르면 동적 해상도 상한이 높아질수록 모델은 고해상도 이미지 이해 작업(InfographicVQA, DocVQA, TextVQA)에서 안정적인 성능 향상을 달성하지만, 4K 해상도에서는 여전히 상한에 도달하지 않아 추가 성장 가능성을 보여줍니다. 더 높은 해상도로 확장하세요.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2) 타일 레이아웃 정보 추가:

모델이 변화하는 동적 해상도에 적응할 수 있도록 하기 위해 연구원들은 타일 레이아웃 정보를 추가 입력으로 추가해야 한다는 것을 발견했습니다. 이를 달성하기 위해 연구원들은 간단한 전략을 채택했습니다. 타일의 각 행 뒤에 특수 '개행'('n') 토큰을 삽입하여 타일의 레이아웃 모델을 알려줍니다. 실험에 따르면 타일 레이아웃 정보를 추가하면 상대적으로 작은 변화(HD9는 타일 영역 수가 9를 초과하지 않음을 나타냄)로 동적 해상도 훈련에 거의 영향을 미치지 않지만 동적 4K 해상도 훈련에는 상당한 성능 향상을 가져올 수 있습니다.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3) 추론 단계 중 해상도 확장

연구원들은 또한 동적 해상도를 사용하는 모델이 최대 타일 상한을 늘려 추론 단계 중에 해상도를 직접 확장하고 추가적인 성능 향상을 가져올 수 있음을 발견했습니다. 예를 들어 HD16을 사용하여 HD9(최대 9개 블록)에서 훈련된 모델을 직접 테스트하면 InfographicVQA에서 최대 8%의 성능 향상을 관찰할 수 있습니다.

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD는 다중 모드 대형 모델이 지원하는 해상도를 4K 수준으로 높입니다. 연구원들은 타일 수를 늘려 더 큰 이미지 입력을 지원하는 현재 전략이 계산 비용과 메모리 제약에 직면한다고 말했습니다. 향후 더 높은 해상도 지원을 달성하기 위해 보다 효율적인 전략을 제안할 계획입니다.

논문 링크:

https://arxiv.org/pdf/2404.06512.pdf

프로젝트 링크:

https://github.com/InternLM/InternLM-XComposer

—끝—

보내주세요 귀하의 제출물 이메일 주소:

ai@qbitai.com

제목을 표시하고 다음을 알려주십시오:

당신은 누구이며, 어디 출신이며, 제출 내용

논문/프로젝트 홈페이지 링크 및 연락처를 첨부하십시오.

최대한 답장을 보내드리겠습니다

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

여기를 클릭해 저를 팔로우하고 별표를 표시하세요~

클릭 세 번으로 "공유", "좋아요", "시청"이 가능합니다

매일 만나요 최첨단 과학기술의 진보에~

위 내용은 4K HD 영상을 쉽게 이해해보세요! 이 대규모 다중 모드 모델은 웹 포스터의 내용을 자동으로 분석하여 작업자에게 매우 편리합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

H5 프로젝트를 실행하는 방법 H5 프로젝트를 실행하는 방법 Apr 06, 2025 pm 12:21 PM

H5 프로젝트를 실행하려면 다음 단계가 필요합니다. Web Server, Node.js, 개발 도구 등과 같은 필요한 도구 설치. 개발 환경 구축, 프로젝트 폴더 작성, 프로젝트 초기화 및 코드 작성. 개발 서버를 시작하고 명령 줄을 사용하여 명령을 실행하십시오. 브라우저에서 프로젝트를 미리보고 개발 서버 URL을 입력하십시오. 프로젝트 게시, 코드 최적화, 프로젝트 배포 및 웹 서버 구성을 설정하십시오.

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Apr 04, 2025 pm 11:54 PM

GiteEpages 정적 웹 사이트 배포 실패 : 404 오류 문제 해결 및 해결시 Gitee ...

Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Apr 02, 2025 pm 03:54 PM

Beegoorm 프레임 워크에서 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? 많은 Beego 프로젝트에서는 여러 데이터베이스를 동시에 작동해야합니다. Beego를 사용할 때 ...

GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? Apr 02, 2025 pm 04:12 PM

GO의 어떤 라이브러리가 대기업이나 잘 알려진 오픈 소스 프로젝트에서 개발 했습니까? GO에 프로그래밍 할 때 개발자는 종종 몇 가지 일반적인 요구를 만납니다.

Redis Stream을 사용하여 GO Language에서 메시지 대기열을 구현할 때 User_ID 유형 변환 문제를 해결하는 방법은 무엇입니까? Redis Stream을 사용하여 GO Language에서 메시지 대기열을 구현할 때 User_ID 유형 변환 문제를 해결하는 방법은 무엇입니까? Apr 02, 2025 pm 04:54 PM

Go Language에서 메시지 대기열을 구현하기 위해 Redisstream을 사용하는 문제는 Go Language와 Redis를 사용하는 것입니다 ...

H5 페이지 생산에는 지속적인 유지 보수가 필요합니까? H5 페이지 생산에는 지속적인 유지 보수가 필요합니까? Apr 05, 2025 pm 11:27 PM

코드 취약점, 브라우저 호환성, 성능 최적화, 보안 업데이트 및 사용자 경험 개선과 같은 요소로 인해 H5 페이지를 지속적으로 유지해야합니다. 효과적인 유지 관리 방법에는 완전한 테스트 시스템 설정, 버전 제어 도구 사용, 페이지 성능을 정기적으로 모니터링하고 사용자 피드백 수집 및 유지 관리 계획을 수립하는 것이 포함됩니다.

GO 모듈에서 사용자 정의 패키지를 올바르게 가져 오는 방법은 무엇입니까? GO 모듈에서 사용자 정의 패키지를 올바르게 가져 오는 방법은 무엇입니까? Apr 02, 2025 pm 03:42 PM

Go Language Development에서 맞춤형 패키지를 올바르게 소개하는 것이 중요한 단계입니다. 이 기사는 "Golang ...

See all articles