Bengio 팀은 Claude 3.5 및 GPT-4o의 약점을 겨냥한 새로운 다중 모드 벤치마크를 제안합니다.-일체 포함-php.cn

AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자 Zhang Tianyu는 캐나다의 Mila 인공 지능 연구소에서 공부했으며 Turing Award를 수상한 Yoshua Bengio 교수 밑에서 공부했습니다. . 박사과정 동안의 주요 업무는 다중 모드, GFlowNet, 다중 에이전트 강화 학습, 기후 변화에 대한 AI 적용에 중점을 두었습니다. 현재 그는 ICML, ICLR 및 ICASSP와 같은 최고의 기계 학습 컨퍼런스에서 논문을 발표했습니다. 기능 융합 및 CLAP(Keyword-to-Caption Augmentation)를 사용한 대규모 대조 언어-오디오 사전 학습으로 표현됩니다.

일반 인공지능 AGI의 궁극적인 목표를 달성하기 위해 가장 먼저 달성해야 할 것은 모델이 인간이 쉽게 할 수 있는 작업을 완료할 수 있어야 한다는 것입니다. 이를 위해 대형 모델 개발의 핵심 지침 중 하나는 기계가 인간처럼 생각하고 추론하도록 만드는 방법입니다. 주의 메커니즘 및 사고 사슬과 같은 기술은 여기서 영감을 받았습니다.

그러나 많은 사람들은 인간의 매우 간단한 인지 작업이 종종 매우 복잡한 추론 과정을 동반한다는 사실을 깨닫지 못할 수 있습니다. 예를 들어, 아래 이미지를 기반으로 차단된 텍스트 공백을 채워보세요.

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

(정답: 전 세계의 기계 학습 연구자들은 새로운 GPU에 대해 매우 기대하고 있습니다. - 난로만큼 크더라도 규모가 큰 실험이 더 효율적이고 저렴합니다.)

대부분의 중국어 원어민에게 이 작업은 어렵지 않을 것이며 단 몇 초 안에 답을 얻을 수 있다고 믿습니다. . 그러나 텍스트의 노출된 부분에서 전체 텍스트를 추론하려면 여전히 매우 복잡한 추론 과정이 필요합니다. 현대 신경과학 연구에 따르면 부분적으로 가려진 개체를 복구하려면 높은 수준의 결정을 내릴 수 있는 전두엽 피질의 높은 수준의 참여가 필요합니다. -만들기.

우리는 현재의 시각적 언어 모델(Vision-Language Models, VLM)이 객체 인식과 텍스트 인식을 매우 정확하게 수행할 수 있다는 것을 알고 있습니다. 그러나 가려진 부분이 텍스트인 경우, 모델의 광학 문자 인식(OCR)이 실패하는 경우, 유일한 핵심 정보가 가려진 텍스트의 몇 픽셀에 불과한 경우 모델이 이 작업을 완료하기 위해 인간의 추론 프로세스를 시뮬레이션할 수 있습니까?

이를 위해 Turing Award 수상자 팀 Yoshua Bengio 은 새로운 시각적 질문 및 답변 작업인 VCR(시각적 캡션 복원)을 제안했습니다. 이 작업을 사용하여 시각적 언어 모델의 추론 기능을 살펴보겠습니다. 현재 시각적 언어 모델은 인간의 인지 수준에서 얼마나 멀리 떨어져 있나요?

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

논문 제목: VCR: Visual Caption Restoration
논문 링크: arxiv.org/abs/2406.06462
코드 저장소: github.com/tianyu-z/VCR(직접 보려면 클릭하여 원본 텍스트를 읽으세요. 모델 평가 및 사전 훈련을 위한 데이터 생성 코드 검토 포함)
Hugging Face 링크: Huggingface.co/vcr-org

VCR 데이터 세트 소개

개발을 위해 VCR 작업을 위해 연구원들은 이미지-텍스트에서 VCR 합성 이미지를 생성하는 프로세스를 구축했습니다. 이 과정에서 텍스트를 덮고 있는 흰색 직사각형의 크기를 조절하여 이미지 속 텍스트의 가시성을 변경할 수 있으며 이를 통해 작업 난이도를 조절할 수 있습니다.

이 데이터 생성 과정을 통해 연구원들은 Wikipedia의 기본 이미지 - 소개 쌍 을 통해 VCR-wiki 데이터 세트를 생성했습니다. 두 언어 모두 "Easy"와 "Hard"라는 두 가지 난이도가 있습니다. 그 중에는:

"쉬운" 어려운 VCR 작업 OCR 모델을 무효화할 수 있음 ;
"어려운" VCR 작업 가려진 각 텍스트에 대해 위쪽과 아래쪽 1-2개만 유지 픽셀이지만 해당 언어 사용자가 작업을 완료할 수 있습니다.

언어 및 난이도별로 테스트 세트와 검증 세트에 5000개의 샘플이 있고 나머지 샘플은 훈련 세트에 있습니다. 그림: 왼쪽부터 각각 영어의 단순 난이도, 영어의 난이도, 중국어의 난이도

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点 글 시작 부분의 예는 인간에게 있어서는 작은 도전에 불과합니다. 이 작업을 수행하는 인간의 궁극적인 수준과 문제를 해결할 때 인간이 사용하는 사고 및 기술입니다. "Hard" 난이도에 대한 샘플 VCR 미션은 다음과 같습니다. 독자는 자신 아래의 빈 텍스트 간격을 채우는 데 더 집중할 수 있습니다.

(정답: 대논문, 서기 140년경 고대 그리스에서 프톨레마이오스가 편찬한 수학과 천문학에 관한 논문으로 별과 행성의 복잡한 운동 경로를 제안했습니다. 중세와 초기 르네상스까지, 책에서 제안한 지구 중심 모델은 이슬람과 유럽에서 채택되었습니다...)

인간은 부분적으로 가려진 텍스트를 어떻게 완성합니까?

교육과 인지과학에는

메타인지

라는 개념이 있습니다. AI를 설계할 때 교사인 우리 인간은

자신의 사고 과정을 모니터링 Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点 하는 것을 참고로 삼아 모델 역할을 하는 학생들의 학습 효율성을 향상시킬 수 있습니다. 따라서 "인간이 VCR 작업을 완료하는 방법"에 대해 생각하는 것은 모델 설계에 도움이 될 수 있습니다.

아래 그림은 VCR 작업에 대한 저자의 문제 해결 아이디어 중 하나를 참고로 보여줍니다.

많은 단계가 있는 것처럼 보이지만 실제로는 다양한 방법을 통해 지속적으로 정보를 얻는 것입니다.

그런 다음 반복적으로 확인
하여 답변의 신뢰도를 높입니다.

처음 사진을 봤을 땐 막연한 추측밖에 없었는데, 새로운 정보를 얻기 위해 계속해서 사진을 읽으면서 점점 그 추측을 검증하게 됐어요. 읽은 후 빈칸을 채우기 시작할 때에도 답을 확인하기 위해 정보의 다양한 측면을 비교하는 것을 멈추지 않습니다. '가설'이 다른 정보와 일치하지 않을 경우, '가설'을 뒤집고 새로운 가설을 다시 시도하게 됩니다.

인간 평가 결과

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

인간의 VCR 작업 능력은 어느 정도인가요?

아래 차트는 쉬움/어려움 설정에서 영어/중국어 각 언어의 원어민 또는 유창한 사용자의 정확성을 보여줍니다.

시간, 지명, 인명 등의 오류를 고려하면, 쉬움 난이도 중국어의 평균 정확도는 약 98.58%이고, 어려움 난이도 중국어의 평균 정확도는 약 91.84%입니다. 이러한 시간, 지명, 인명으로 인한 오류를 제외하면 인간은 쉬운 중국어 난이도에서 거의 만점에 가까웠고, 중국어 어려움 난이도의 정확도도 96.63%에 이르렀습니다. 보시다시피, VCR 작업은 인간에게 매우 간단합니다.

기존 모델 결과

저자가 테스트한 "올스타 라인업": Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o, GPT-4 Turbo, Qwen-VL - Max, Reka Core 및 현재 사용 가능한 최고 성능의 오픈 소스 모델.

다음 그림은 VCR-Wiki 중국어의 단순 난이도에 대한 각 모델의 성능을 보여줍니다.

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

빨간색 상자 측정 표시에는 이미지(VI) 및 텍스트를 포함한 대표가 포함됩니다( TEI)두 부분은 상황별 정보로 사용되며 모델은 가려진 텍스트의 정확성을 복원할 수 있습니다. 파란색 상자는 이미지(TEI)의 텍스트만 상황 정보로 포함되고, 이미지(VI)는 포함되지 않음을 나타냅니다.

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

결과는 다음과 같습니다.

현재 대다수의 모델이 이 작업을 수행할 수 없습니다.
대부분의 모델이 이미지 정보를 제대로 활용하지 못합니다. , 이미지 정보 때문이 아니라(VI) 정확도를 향상시킵니다.

중국어 어려움 난이도에서 모델은 더 큰 고민에 빠졌습니다. 최고의 성능은 GPT-4o이지만 정확도는 2.2%에 불과합니다. CogVLM2-English 및 Qwen-VL-Max를 제외하고 대부분의 모델의 정확도는 0%에 가깝습니다.

하드 모드에서는 원래 모델이 이 질문에 상당한 비율로 정확하게 답하는 데 어려움을 겪는다는 것을 알 수 있습니다.

영어 VCR 평가 결과

저자는 또한 영어 VCR-Wiki에서 현재 최고의 오픈 소스 및 폐쇄 소스 시각 언어 모델을 테스트했습니다. 테스트 결과를 보여주기 전에 영어 VCR-Wiki 작업의 두 가지 예를 살펴보십시오.

간단한 영어 예:

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

(정답: 미국 우체국이 2009년에 첫 우표를 발행한 이후) 1847년에는 4,000개가 넘는 우표가 발행되었고 800명이 넘는 사람들이 등장했습니다...)

영어 난이도 예:

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

(정답: 링컨은 미국 자동차 제조업체의 고급 자동차 부문입니다. Ford.는 미국 최고의 고급 차량 브랜드 중 하나로 판매됩니다...)

기사에 표시된 영어 VCR-Wiki의 테스트 결과는 다음과 같습니다.

Bengio团队提出多模态新基准，直指Claude 3.5和GPT-4o弱点

전체 결과를 보면 모델이 영어 단순 모드와 어려움 모드에서 각각 중국어보다 더 나은 성능을 발휘합니다. 이 결과는 "특수 모듈 구성으로 인해 불완전한 중국어가 완성될 가능성이 더 높다"라는 우리의 일반적인 직관과 일치하지 않습니다. 아마도 사전 훈련 과정에서 영어가 데이터 양이나 데이터 품질 측면에서 중국어보다 더 큰 이점을 갖고 있기 때문일 것입니다.

테스트된 많은 모델 중에서 GPT-4o가 폐쇄 소스 모델 중에서 가장 좋고, CogVLM2가 오픈 소스 모델 중에서 가장 좋습니다.

매우 흥미로운 현상은 이미지 추가가 CogVLM2(하드 모드에서 20.3% 증가)에 크게 도움이 된 반면 GPT-4o의 경우 결과가 감소했다는 것입니다. 중국어 시험에서도 비슷한 현상이 나타난다. 저자는 이것이 모델의 구조 때문에 발생한다고 믿습니다. 구체적인 내용은 CogVLM 시리즈의 논문과 코드를 참조하시기 바랍니다.

또한 비공개 소스 모델은 일반적으로 오픈 소스 모델보다 더 나은 결과를 달성하는데, 이는 더 나은 훈련 전략이나 더 많은 모델 매개변수에 기인할 수 있습니다. 그러나 그럼에도 불구하고 모델은 여전히 "어려운" 환경에서 큰 어려움에 직면했습니다. 오픈 소스 모델은 "쉬운" 설정을 부분적으로 완료할 수 있지만 어려운 설정에서는 대부분의 오픈 소스 모델이 인간에게 매우 간단한 이 작업을 완료할 수 없습니다.

관련 작업 소개

VQA

VQA(시각적 질문 응답) 작업에서는 모델이 입력 이미지와 자연어 질문을 기반으로 자유 형식 답변을 생성해야 합니다. VQA를 평가하는 것은 단일한 표준 답변이 없기 때문에 매우 어렵습니다. 전통적인 VQA 방법은 주로 이미지에 포함된 텍스트 콘텐츠와 전체 이미지 컨텍스트 간의 복잡한 관계를 포함하지 않고 이미지에 보이는 요소에 대한 직접적인 쿼리에 중점을 둡니다.

텍스트가 이미지 정보의 큰 부분을 차지하는 일부 VQA 평가에서는 모델의 시각적 모듈이 언어 모듈과 전혀 정렬되지 않고도 작업을 수행할 수도 있습니다. 이러한 유형의 프로세스는 이미지가 OCR 비주얼 모듈에 입력되고, OCR 비주얼 모듈은 이미지의 문자 정보를 출력하고 이를 언어 모듈에 입력하는 컨텍스트로 사용합니다. 이로 인해 VQA 작업이 이미지 정보가 필요하지 않은 QA 작업으로 변질됩니다. 원래 비교된 다양한 VLM에 필요한 시각적 모듈 정렬 기능은 무시되었지만 OCR 기능은 중요하게 여겨졌습니다.

OCR

광학 문자 인식(OCR) 작업은 일반적으로 이미지 컨텍스트에 관계없이 이미지의 전체 문자를 입력하고 이미지의 문자를 나타내는 문자열 텍스트를 출력합니다.

사전 훈련된 OCR 모델은 텍스트가 불완전하거나 흐릿하더라도 입력 이미지에서 삽입된 텍스트를 추출할 수 있습니다. 그러나 텍스트 구성 요소가 흐려지거나 가려지는 정도가 커질수록 보이는 부분만 사용하여 원본 텍스트를 복구하기가 어려워지고, OCR 방법은 이 경우 효율성이 제한됩니다.

VQA 작업에는 표준 답변이 없으며 모델 답변의 품질을 평가하는 것은 여전히 미해결 질문입니다. OCR 작업은 완료하기 위해 컨텍스트가 필요하지 않으며 모델이 실제로 컨텍스트에서 정보를 활용하는 방법을 학습했는지 테스트하는 것은 불가능합니다.

VCR 작업을 대체할 수 없음

VCR(시각적 캡션 복원) 작업은 이미지에서 가려진 텍스트를 복원하는 것을 목표로 하며 이 작업 은 VQA 및 OCR 간 브리지 구축에서 지원됩니다. .

VCR 작업의 독특한 과제는 시각적 정보와 텍스트 정보 사이의 정확한 정렬을 달성하는 모델이 필요하다는 것입니다. 이는 OCR의 간단한 텍스트 추출 작업과 뚜렷한 대조를 이룹니다. OCR에서 주요 관심사는 이미지 내러티브의 맥락적 관련성을 이해하지 않고 눈에 보이는 문자를 인식하는 것입니다. 이와 대조적으로 VCR에서는 가려진 콘텐츠를 정확하게 재구성하기 위해 모델이 사용 가능한 부분 픽셀 수준 텍스트 단서와 시각적 컨텍스트를 공동으로 활용해야 합니다. 이는 내장된 텍스트와 시각적 요소를 처리하는 모델의 능력뿐만 아니라 내부 일관성을 유지하는 능력도 테스트합니다. 이는 인간이 맥락과 시각적 단서를 통해 이해하고 반응하는 인지 과정과 유사.
VCR 과제 질문에는 고유한 답변
이 있어 정확성을 통해 평가가 진행되므로 평가 지표가 더욱 명확해집니다.
텍스트의 덮는 비율을 조정하여 작업의 난이도를 조절할 수 있으며
풍부한 테스트 환경을 제공합니다.

요약

본 논문에서 제안하는 VCR(Visual Caption Recovery) 작업은 겉으로는 단순해 보이는 자막 복구 작업을 통해 기존 모델 이미지-텍스트 정렬의 한계를 교묘하게 밝혀내고 추론의 차이 높은 수준의 인지 작업에서 모델과 인간 사이의 능력. 이 작업은 향후 더욱 효과적인 VLM 훈련, 평가 및 추론 방법에 영감을 주어 다중 모드 모델과 인간 인지 능력 간의 격차를 더욱 줄일 수 있다고 믿어집니다.

위 내용은 Bengio 팀은 Claude 3.5 및 GPT-4o의 약점을 겨냥한 새로운 다중 모드 벤치마크를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!