이제 대형 멀티모달 고해상도 문서도 있습니다!
이 기술은 이미지 속 정보를 정확하게 식별할 수 있을 뿐만 아니라 자체 지식 베이스를 호출하여 사용자 요구에 따라 질문에 답할 수도 있습니다.
예를 들어 사진에 있는 마리오 인터페이스를 보면 출처라고 직접 대답할 수 있습니다. 닌텐도 일.
이 모델은 ByteDance와 중국 과학 기술 대학이 공동으로 연구하여 2023년 11월 24일 arXiv에 업로드되었습니다.
이 연구에서 저자 팀은 통합된 고해상도인 DocPedia를 제안했습니다. 다중 모드 문서 대형 모델 DocPedia.
본 연구에서 저자는 고해상도 문서 이미지를 구문 분석할 수 없는 기존 모델의 단점을 해결하기 위해 새로운 방법을 사용했습니다.
DocPedia의 해상도는 최대 2560×2560입니다. 그러나 LLaVA, MiniGPT-4 등 현재 업계의 첨단 멀티모달 대형 모델은 이미지 처리 해상도의 상한이 336×336으로 고해상도 문서를 구문 분석할 수 없습니다. 이미지.
그렇다면 이 모델은 어떻게 작동하며 어떤 최적화 방법이 사용되나요?
본 논문에서 저자는 DocPedia의 고해상도 이미지와 텍스트 이해의 예를 보여줍니다. DocPedia는 고해상도 문서 이미지와 자연스러운 장면 이미지에서 명령 내용을 이해하고 관련 그래픽 및 텍스트 정보를 정확하게 추출하는 기능을 가지고 있음을 관찰할 수 있습니다. 컴퓨터 구성이나 손으로 쓴 텍스트 등의 텍스트 정보도 정확하게 판단할 수 있습니다.
DocPedia는 이미지의 텍스트 정보와 결합하여 대규모 모델 추론 기능을 사용하여 상황에 따라 문제를 분석할 수도 있습니다.
이미지 정보를 읽은 후 DocPedia는 풍부한 세계적 지식 기반을 바탕으로 이미지에 표시되지 않은 확장된 내용에 대해서도 답변해 드립니다
다음 표는 기존의 일부 다중 모드 대형 모델과 DocPedia의 키를 정량적으로 비교합니다. 정보 추출(KIE) 및 시각적 질문 응답(VQA) 기능.
해상도를 높이고 효과적인 훈련 방법을 채택함으로써 DocPedia는 다양한 테스트 벤치마크에서 상당한 개선을 이룬 것을 확인할 수 있습니다
그렇다면 DocPedia는 어떻게 이러한 효과를 얻을 수 있을까요?
주파수 영역에서 해결 문제 해결
사전 훈련 단계에서는 대규모 언어 모델이 동결되고 시각적 인코더의 일부만 최적화되어 출력 토큰 표현 공간이 대규모 언어 모델과 일치하도록 만듭니다.
이 단계에서 저자 팀 텍스트 및 자연 장면 인식을 포함한 DocPedia Perceptual 기능을 주로 훈련할 것을 제안합니다.
사전 훈련 작업에는 텍스트 감지, 텍스트 인식, 엔드 투 엔드 OCR, 단락 읽기, 전체 텍스트 읽기 및 이미지 캡션이 포함됩니다.
미세 조정 단계에서는 대규모 언어 모델이 동결 해제되어 엔드투엔드 전체 최적화가 수행됩니다.
저자 팀은 원래의 저수준 인식 작업을 기반으로 인식-이해 공동 훈련 전략을 제안했습니다. , 두 가지 유형의 문서 이해와 장면 이미지가 추가되었습니다. 고차 부분 의미 이해 작업
이러한 공동 인식-이해 훈련 전략은 DocPedia의 성능을 더욱 향상시킵니다.
문제 해결 전략 측면에서 DocPedia는 기존 방법과 달리
주파수 영역관점에서 해결합니다. 고해상도 문서 이미지를 처리할 때 DocPedia는 먼저 DCT 계수 행렬을 추출합니다. 이 행렬은 원본 이미지의 텍스트 정보를 잃지 않고 공간 해상도를 8배로 다운샘플링할 수 있습니다. 이 단계 후에는 계단식 주파수 도메인 어댑터(Frequency Adapter)를 사용하여 입력 신호를 Vision Encoder(비전 인코더)로 전송합니다. 더 깊은 해상도 압축 및 특징 추출을 위해
이 방법을 사용하면 2560×2560 이미지를 1600개의 토큰으로 표현할 수 있습니다.
원본 이미지를 시각적 인코더(예: Swin Transformer)에 직접 입력하는 것과 비교하여 이 방법은 토큰 수를 4배로 줄입니다.
마지막으로 이러한 토큰은 시퀀스 차원의 명령어에서 변환된 토큰과 연결되어 답변을 위한 대형 모델에 입력됩니다.
절제 실험 결과는 해상도를 높이고 공동 인식-이해 미세 조정을 수행하는 것이 DocPedia의 성능을 향상시키는 두 가지 중요한 요소임을 보여줍니다.
다음 그림은 DocPedia의 종이 이미지 성능을 비교한 것입니다. 다양한 입력에 대한 명령 규모에 따라 답변합니다. 해상도가 2560×2560으로 증가된 경우에만 DocPedia가 올바르게 응답하는 것을 볼 수 있습니다.
아래 그림은 다양한 미세 조정 전략 하에서 동일한 장면 텍스트 이미지와 동일한 지시에 대한 DocPedia의 모델 응답을 비교합니다.
이 예를 통해 지각-이해를 통해 미세 조정된 모델이 텍스트 인식 및 의미론적 질문과 답변을 정확하게 수행할 수 있음을 알 수 있습니다.
논문을 보려면 다음 링크를 클릭하십시오: https: //arxiv.org/abs/2311.11810
위 내용은 해상도 한계 돌파: 바이트와 중국 과학기술대학교, 대규모 다중 모드 문서 모델 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!