이미지를 텍스트로 자동 변환하면 이미지 설명의 품질이 향상되고 정확해집니다.-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pi Renjie: 홍콩 과학 기술 대학의 3년차 박사 과정 학생으로 Zhang Tong 교수와 Zhou Xiaofang 교수 밑에서 공부하고 있습니다. 2024년에 Apple 장학금을 받았습니다. 현재 주요 연구 방향은 멀티모달 대형 언어 모델과 데이터 중심 AI다.

Zhang Jianshu: 우한 대학교 3학년 학부생. 현재 Zhang Tong 교수의 지도 하에 연구 인턴으로 일하고 있습니다. 그의 주요 연구 방향은 대규모 언어 모델, 다중 모드 대규모 언어 모델 및 지속적인 학습입니다. 현재 2025년 가을 박사학위 입학 기회를 찾고 있습니다.

오늘날의 다중 모드 대형 모델 개발에서 모델의 성능은 훈련 데이터의 품질과 밀접한 관련이 있습니다. "데이터는 모델에 대부분의 기능을 제공한다"고 말할 수 있습니다.

여기서 이미지-텍스트 데이터세트는 이미지 이해, 텍스트 생성, 이미지 검색 등 다양한 분야에서 중요한 역할을 합니다.

그러나 기존 이미지 설명 데이터 세트는 주로 네트워크 크롤링 및 수동 주석에서 파생되며 품질이 고르지 않고 세부 정보가 부족하며 설명 노이즈가 많은 등의 문제가 있습니다. 사람이 이미지에 대한 자세한 설명을 제공할 수 있지만 높은 주석 비용으로 인해 규모와 실행 가능성이 제한됩니다. 따라서 정확하고 상세한 이미지 설명을 생성하기 위한 효율적이고 확장 가능한 방법이 절실히 필요합니다.

위 문제를 해결하기 위해 홍콩 과학 기술 대학교, 우한 대학교, 절강 대학교, UIUC의 연구원들은 다중 모드 대형 언어 모델을 통합하는 혁신적인 자동화 프레임워크인 이미지 텍스트화(IT)를 공동으로 제안했습니다. (MLLM)과 다양한 시각적 전문가 모델이 협력하여 이미지 정보를 텍스트화하고, 마지막으로 강력한 추론 기능을 갖춘 순수 텍스트 대형 언어 모델을 사용하여 이 텍스트화된 정보를 고품질 이미지 설명으로 변환합니다.

이미지를 텍스트로 자동 변환하면 이미지 설명의 품질이 향상되고 정확해집니다.

Paper: 이미지 텍스트화: 정확하고 상세한 이미지 설명을 생성하기 위한 자동 프레임워크
Paper 주소: https://arxiv.org/pdf/2406.07502v1
프로젝트 주소: https: //github.com/sterzhang/image-hetextualization/

이미지를 텍스트로 자동 변환하면 이미지 설명의 품질이 향상되고 정확해집니다.

^{다중 모달 모델로 만든 그림을 사용하여 설명하는 것과 IT에서 생성한 그림을 사용하여 설명하는 것입니다. 포함 사항:}

혁신적인 프레임워크: 다중 모드 대형 모델의 대략적인 이미지 이해 기능, 시각적 전문가 모델의 세분화된 인식 기능 및 일반 텍스트의 추론 기능을 사용하는 이미지 텍스트화 프레임워크를 제안합니다. 상세하고 명확하게 표현된 이미지 설명을 자동으로 생성하는 대규모 언어 모델입니다.

평가 벤치마크 및 실험: 상세한 이미지 설명을 평가하기 위한 여러 벤치마크를 제안하고 광범위한 실험을 통해 프레임워크의 효율성을 검증합니다.
데이터 세트 및 코드 릴리스: 이미지 텍스트화 프레임워크를 활용하여 대규모의 고품질 이미지 설명 데이터 세트(IT-170K)를 생성했습니다. 향후 연구를 촉진하기 위해 우리는 모든 소스 코드와 생성된 데이터 세트를 공개적으로 제공했습니다.

이미지 텍스트화 방법 이미지를 텍스트로 자동 변환하면 이미지 설명의 품질이 향상되고 정확해집니다.

이미지-텍스트화(IT) 프레임워크에는 다음 세 단계가 포함됩니다.

1. 대략적인 그림 텍스트화(Holistic Textualization): 먼저 다중 모드 대형 언어 모델을 사용하여 그림에 대한 참조 설명을 생성합니다. 이러한 설명에는 세부 사항이 누락되거나 환상이 있을 수 있지만 시각적 정보와 언어 표현을 나타냅니다. 이미지의 기본 구조가 제공됩니다. 여기서의 시각적 구조는 주로 참조 설명에 후속 세부 사항에 대한 "앵커" 효과를 제공하여 추가된 세부 사항을 더 효과적으로 텍스트화할 수 있는 몇 가지 큰 핵심 개체가 포함되어 있다는 사실에 주로 반영됩니다. 또한, 언어 표현의 구조는 다중 모드 대형 모델에 포함된 대형 일반 텍스트 언어 모델에 주로 반영되어 강력한 언어 기능을 갖게 되며, 이를 통해 여기서 생성된 참조 설명을 언어에 대해 잘 구성할 수 있습니다. 예를 들어, 먼저 그림이 대략적으로 설명하는 내용을 말한 다음 세부 사항을 확장하고 마지막으로 요약합니다. 이 설명 스타일은 인간의 선호도에 더 편향되어 있습니다. 또한 최종 텍스트화된 설명을 더 나은 언어 기능을 갖춘 템플릿에서 처리할 수 있습니다.

2. 시각적 세부 텍스트화: 이 단계에서는 그림 측면과 텍스트 측면에서 세부 정보를 동시에 추출합니다.

첫 번째는 텍스트 측면입니다. 이전 단계에서 다중 모달 대형 모델을 사용하여 생성한 참조 설명에는 환각이 포함될 수 있으므로 여기서 가장 먼저 하는 일은 "환각 감지"입니다. 먼저 LLM을 사용하여 참조 설명에 포함된 엔터티를 캡처한 다음 오픈 세트 감지기를 사용하여 그림의 엔터티를 일치시키지 않으면 해당 엔터티를 환상으로 판단합니다. 여기에서는 감지된 환각을 텍스트화하고 최종 텍스트화 다시 설명에서 삭제합니다.

시각적 측면에서는 고해상도 이미지에 대해 훈련된 다양한 작업의 시각적 전문가 모델을 사용하여 이미지의 세부 정보를 추출합니다. 그림 속 사물의 상세한 정보를 텍스트로 표현하고 싶다면, 단순히 사물의 캡션을 사용하는 것만으로는 충분하지 않습니다. 먼저 이들 사물의 경계 상자를 이용하여 이들 사물의 좌우 관계를 표현합니다. 텍스트의 형태. 그런데 사진 속의 사물은 왼쪽과 오른쪽 정보뿐만 아니라 앞, 뒤 정보도 가지고 있습니다. 이에 대해 먼저 분할 모델을 이용하여 이들 객체의 마스크를 추출한 후, 원본 사진을 깊이 맵으로 변환하고, 깊이에 있는 특정 객체의 마스크에 해당하는 깊이 점수를 계산하여 텍스트에 깊이 정보를 반영합니다. 지도. 이 시점에서 텍스트를 사용하여 그림에 있는 각 개체의 크기, 왼쪽 및 오른쪽 위치, 컨텍스트와 같은 세부 정보를 복원할 수 있습니다.

3. Textualized Recaptioning: 처음 두 단계의 이미지 정보 텍스트화 결과와 신중하게 설계된 다시 작성된 프롬프트를 결합하면 일반 텍스트의 대규모 언어 모델이 매우 좋습니다. 강력한 이해력과 추론 능력을 통해 텍스트를 작성하고 상세하고 정확한 이미지 설명을 생성합니다.

종합 평가 및 실험 검증

프레임워크의 유효성을 검증하기 위해 DID-Bench(상세 이미지 설명 벤치마크), D2I-Bench(이미지 대 설명 벤치마크) 및 LIN의 세 가지 평가 벤치마크를 구축했습니다. 벤치(언어 벤치마크). 우리는 광범위한 실험을 수행하여 IT 프레임워크에 의해 생성된 이미지 설명이 세부 사항의 풍부함과 정확성 측면에서 기존 방법보다 훨씬 뛰어남을 보여줍니다. 특히, LLaVA-7B와 같은 IT 프레임워크에서 생성된 데이터 세트에 대해 훈련된 MLLM은 더 강력한 이미지 설명 기능과 감소된 환각 현상을 나타냅니다.

DID-Bench(상세 이미지 설명 벤치마크): 이미지 설명과 사람이 수동으로 레이블을 붙인 자세한 이미지 설명 간의 유사성을 평가하는 데 사용됩니다. 수정된 IT-{LLaVA} 및 IT-{GPT4-V} 이미지 설명은 수정 전보다 더 자세하고 정확하며, 사람이 표시한 설명과 더 일치함을 알 수 있습니다.

D2I-Bench(Description to Image Benchmark): Vincentian 그래프 모델을 사용하여 생성된 설명을 그림으로 변환하고 원본 이미지와의 유사성을 비교합니다. 여기서는 평가를 위해 CLIP-score와 DINO-score를 선택했습니다. .더 높은 점수를 얻을 수 있습니다.

또한 우리 프레임워크에서 생성된 데이터를 사용하여 훈련된 LLaVA-7B가 보다 자세하고 복잡한 설명을 생성할 수 있음을 POPE 및 LIN-Bench에서도 확인했습니다(오른쪽 LIN-Bench). 표의) 환각을 줄일 수도 있습니다(표 왼쪽의 POPE 벤치마크).

마지막으로 생성된 데이터를 통계적으로 비교한 결과, 수정된 설명의 각 품사 수가 대폭 향상된 것을 확인할 수 있습니다.

미래 전망

우리의 작업은 기존 이미지 설명 데이터 세트의 한계를 해결할 뿐만 아니라 보다 효율적이고 확장 가능한 방법을 설계하기 위한 영감을 제공합니다. 우리는 IT 프레임워크가 더 많은 응용 분야에서 잠재력을 입증하고 이미지 이해 및 생성 기술의 추가 개발을 촉진하기를 기대합니다.

위 내용은 이미지를 텍스트로 자동 변환하면 이미지 설명의 품질이 향상되고 정확해집니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!