다중 모드 대형 모델(LMM)이 계속 발전함에 따라 LMM 성능을 평가해야 할 필요성도 커지고 있습니다. 특히 중국 환경에서는 LMM의 고급 지식과 추론 능력을 평가하는 것이 더욱 중요해진다.
이러한 맥락에서 다양한 작업에 대한 기본 모델의 전문가 수준의 다중 모드 이해 능력을 중국어로 평가하기 위해 M-A-P 오픈 소스 커뮤니티, 홍콩 과학 기술 대학교, 워털루 대학교 및 Zero One Thing은 CMMMU(중국 대규모 다중 분야 다중 모드 이해 및 추론) 벤치마크를 공동으로 출시했습니다. 이 벤치마크의 목표는 중국어의 대규모 다학제적 다중 모드 이해 및 추론을 위한 포괄적인 평가 플랫폼을 제공하는 것입니다. 벤치마크를 통해 연구자는 다양한 작업에 대한 모델을 테스트하고 다중 모드 이해 능력을 전문가 수준과 비교할 수 있습니다. 이 공동 프로젝트의 목표는 중국 다중 모드 이해 및 추론 분야의 발전을 촉진하고 관련 연구에 대한 표준화된 참고 자료를 제공하는 것입니다.
CMMMU는 예술, 비즈니스, 건강 및 의학, 과학, 인문학 및 사회 과학, 기술 및 엔지니어링을 포함한 6가지 주요 주제 카테고리를 다루며 30개 이상의 하위 분야가 포함됩니다. 아래 그림은 각 하위분야 과목별 문제의 예시를 보여줍니다. CMMMU는 중국 환경에서 최초의 다중 모드 벤치마크 중 하나이자 LMM의 복잡한 이해 및 추론 기능을 검사하는 몇 안 되는 다중 모드 벤치마크 중 하나입니다.
데이터 수집
데이터 수집은 세 단계로 나누어집니다. 먼저 연구진은 웹페이지나 도서 등 저작권 라이선스 요건을 충족하는 주제별 질문 소스를 수집했다. 이 과정에서 데이터의 다양성과 정확성을 확보하기 위해 질문 소스의 중복을 방지하기 위해 열심히 노력했습니다. 둘째, 연구원들은 추가 주석을 위해 질문 소스를 크라우드소싱 주석 작성자에게 전달했습니다. 모든 주석자는 학사 학위 이상의 개인으로 주석이 달린 질문과 관련 설명을 확인할 수 있습니다. 주석 처리 과정에서 연구자들은 주석 작성자에게 주석 원칙을 엄격히 준수할 것을 요구합니다. 예를 들어 답변하기 위해 사진이 필요하지 않은 질문을 필터링하고, 가능한 한 동일한 이미지를 사용하는 질문을 필터링하고, 답변하는 데 전문 지식이 필요하지 않은 질문을 필터링합니다. 마지막으로, 데이터 세트의 각 주제에 대한 질문 수의 균형을 맞추기 위해 연구자들은 더 적은 수의 질문으로 주제를 구체적으로 보완했습니다. 이렇게 하면 데이터 세트의 완전성과 대표성이 보장되어 후속 분석과 연구가 더욱 정확하고 포괄적이게 됩니다.
데이터 세트 정리
CMMMU의 데이터 품질을 더욱 향상시키기 위해 연구원들은 엄격한 데이터 품질 관리 프로토콜을 따릅니다. 첫째, 각 질문은 논문 작성자 중 최소한 한 명에 의해 개인적으로 확인되었습니다. 둘째, 데이터 오염 문제를 피하기 위해 여러 LLM이 OCR 기술에 의존하지 않고도 답변할 수 있는 질문도 가려냈습니다. 이러한 조치는 CMMMU 데이터의 신뢰성과 정확성을 보장합니다.
데이터 세트 개요
CMMMU에는 총 12,000개의 질문이 있으며 이는 소수 샘플 개발 세트, 검증 세트 및 테스트 세트로 구분됩니다. 소수 샘플 개발 세트에는 각 주제에 대해 약 5개의 질문이 포함되어 있고, 검증 세트에는 900개의 질문이 있으며, 테스트 세트에는 11,000개의 질문이 포함되어 있습니다. 문제는 병리학 도표, 악보 도표, 회로도, 화학 구조 도표 등 39가지 유형의 그림을 다룹니다. 문제는 지적인 난이도가 아닌 논리적 난이도를 기준으로 쉬움(30%), 보통(58%), 어려움(12%)의 3가지 난이도로 구성되어 있습니다. 더 많은 질문 통계는 표 2와 표 3에서 확인할 수 있습니다. 팀은 CMMMU에서 다양한 주류 중국어 및 영어 이중 언어 LMM과 여러 LLM의 성능을 테스트했습니다. 폐쇄 소스 모델과 오픈 소스 모델이 모두 포함되어 있습니다. 평가 프로세스에서는 모델의 원시 기능을 확인하기 위해 미세 조정이나 소수의 설정 대신 제로샷 설정을 사용합니다. LLM은 또한 이미지 OCR 결과 + 텍스트를 입력으로 사용하는 실험을 추가했습니다. 모든 실험은 NVIDIA A100 그래픽 프로세서에서 수행되었습니다.
주요 결과표 4는 실험 결과를 보여줍니다.
몇 가지 중요한 결과는 다음과 같습니다.
- CMMMU는 MMMU보다 더 까다로우며 이는 MMMU가 이미 매우 어렵다는 것을 전제로 합니다.
GPT-4V의 중국어 정확도는 41.7%에 불과한 반면, 영어 컨텍스트의 정확도는 55.7%입니다. 이는 기존의 언어 간 일반화 방법이 최첨단 비공개 소스 LMM에도 충분하지 않음을 보여줍니다.
- MMMU와 비교하면 국내 대표 오픈소스 모델과 GPT-4V의 격차가 상대적으로 적습니다.
MMMU에서 Qwen-VL-Chat과 GPT-4V의 차이는 13.3%이고, MMMU에서 BLIP2-FLAN-T5-XXL과 GPT-4V의 차이는 21.9%입니다. 놀랍게도 Yi-VL-34B는 오픈 소스 이중 언어 LMM과 CMMMU의 GPT-4V 사이의 격차를 7.5%까지 좁힙니다. 이는 중국 환경에서 오픈 소스 이중 언어 LMM이 GPT-4V와 동일하다는 것을 의미합니다. 오픈 소스 커뮤니티에서 유망한 발전입니다.
- 오픈소스 커뮤니티에서 중국 전문 멀티모달 인공일반지능(AGI)을 추구하는 게임이 이제 막 시작되었습니다.
팀은 최근 출시된 Qwen-VL-Chat, Yi-VL-6B 및 Yi-VL-34B를 제외하고 오픈 소스 커뮤니티의 모든 이중 언어 LMM은 CMMMU의 빈번한 정확도에 필적하는 정확도만 달성할 수 있다고 지적했습니다. 선택.
문제 난이도 및 문제 유형별 분석
- 다양한 문제 유형
Yi-VL 시리즈, Qwen-VL-Plus 및 GPT-4V의 차이점은 주로 객관식 질문에 답하는 능력이 다릅니다.
다양한 질문 유형의 결과는 표 5에 나와 있습니다.
- 다양한 질문 난이도
결과에서 주목할만한 점은 최고의 오픈 소스 LMM(예: Yi -VL- 34B) 및 GPT-4V는 중간 수준 및 어려운 문제에 직면할 때 큰 격차를 보입니다. 이는 오픈 소스 LMM과 GPT-4V의 주요 차이점이 복잡한 조건에서 계산하고 추론하는 능력이라는 강력한 증거입니다.
다양한 문제 난이도의 결과는 표 6과 같습니다.
오류 분석
연구원들은 GPT-4V의 오답을 주의 깊게 분석했습니다. 아래 그림과 같이 주요 오류 유형으로는 인식 오류, 지식 부족, 추론 오류, 답변 거부, 주석 오류 등이 있습니다. 이러한 오류 유형을 분석하는 것은 현재 LMM의 기능과 한계를 이해하는 데 중요하며 향후 설계 및 교육 모델 개선을 안내할 수도 있습니다.
- 인식 오류(26%): 인식 오류는 GPT-4V가 잘못된 예를 생성하는 주요 이유 중 하나입니다. 한편, 모델이 이미지를 이해할 수 없으면 이미지에 대한 기본 인식에 편향이 생겨 잘못된 응답이 발생합니다. 반면, 모델이 영역별 지식, 암시적 의미 또는 불명확한 공식에서 모호함을 발견하면 영역별 인식 오류가 나타나는 경우가 많습니다. 이 경우 GPT-4V는 텍스트 정보 기반 답변(예: 질문 및 옵션)에 더 의존하는 경향이 있어 시각적 입력보다 텍스트 정보를 우선시하여 다중 모드 데이터를 이해하는 데 편향이 발생합니다.
- 추론 오류(26%) : 추론 오류는 GPT-4V가 잘못된 예제를 생성하는 또 다른 주요 요인입니다. 모델이 이미지와 텍스트가 전달하는 의미를 올바르게 인식하더라도 복잡한 논리적, 수학적 추론이 필요한 문제를 해결하는 과정에서는 여전히 오류가 발생할 수 있습니다. 일반적으로 이 오류는 모델의 논리적, 수학적 추론 능력이 약하기 때문에 발생합니다.
- 지식 부족(22%): 전문 지식 부족도 GPT-4V에 오답이 나오는 이유 중 하나입니다. CMMMU는 LMM 전문가 AGI를 평가하기 위한 벤치마크이기 때문에 다양한 학문 분야와 하위 분야에 대한 전문가 수준의 지식이 필요합니다. 따라서 LMM에 전문가 수준의 지식을 접목시키는 것도 노력할 수 있는 방향 중 하나이다.
- 답변 거부(12%): 모델이 답변을 거부하는 것도 일반적인 현상입니다. 분석을 통해 모델이 질문에 대한 답변을 거부한 몇 가지 이유를 지적했습니다. (1) 모델이 이미지에서 정보를 인식하지 못했습니다. (2) 종교적인 문제나 개인의 실생활 정보와 관련된 질문이었고, (3) 질문에 성별 및 주관적 요인이 포함된 경우 모델은 직접적인 답변을 제공하지 않습니다.
- 오류: 남은 오류에는 텍스트 이해 오류(7%), 주석 오류(2%), 답변 추출 오류(5%)가 포함됩니다. 이러한 오류는 복잡한 구조 추적 기능, 복잡한 텍스트 논리 이해, 응답 생성 제한, 데이터 주석 오류, 답변 일치 추출에서 발생하는 문제 등 다양한 요인으로 인해 발생합니다.
CMMMU 벤치마크는 고급 일반 인공 지능(AGI) 개발에 있어 상당한 진전을 보여줍니다. CMMMU는 최신 대형 다중 모드 모델(LMM)을 엄격하게 평가하고 특정 영역에 대한 기본 지각 기술, 복잡한 논리적 추론 및 심층적인 전문 지식을 테스트하도록 설계되었습니다. 본 연구는 중국어와 영어 이중언어 상황에서 LMM의 추론 능력을 비교함으로써 차이점을 지적하였다. 이러한 상세한 평가는 모델이 각 분야의 숙련된 전문가의 숙련도에 얼마나 부족한지 판단하는 데 중요합니다.
위 내용은 중국 LMM 체형에 적합한 최신 벤치마크 CMMMU: 30개 이상의 하위 부문과 12,000개 이상의 전문가 수준 질문 포함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!