GPT-4의 그래픽 추론 능력은 인간의 절반에도 못 미친다고요?
미국 산타페 연구소의 연구에 따르면 그래픽 추론 질문에 대한 GPT-4의 정확도는 33%에 불과합니다.
GPT-4v는 다중 모드 기능을 갖추고 있지만 성능이 상대적으로 낮고 질문의 25%만 올바르게 대답할 수 있습니다
Δ점선은 16개 작업의 평균 성능을 나타냅니다
결과가 나오자마자 이 실험이 공개되자 곧바로 YC에서 폭넓은 논의가 일어났습니다
이 결과를 지지한 일부 네티즌들은 GPT가 추상적인 그래픽을 처리하는 데 제대로 수행되지 않으며 "위치"와 "회전"과 같은 개념을 이해하기가 더 어렵다고 말했습니다
그러나 일부 네티즌들은 이러한 결론에 대해 의구심을 표명했습니다. 그들의 견해는 다음과 같이 간단하게 요약될 수 있습니다.
GPT-4의 정확도는 33%에 불과합니다.이 견해가 틀렸다고 말할 수는 없지만 완전히 설득력이 있는 것은 아닙니다. 이유는 계속 읽어보세요.
이러한 그래픽 문제에 대한 인간과 GPT-4의 성능을 평가하기 위해 연구원들은 올해 5월에 출시된 ConceptARC 데이터 세트를 사용했습니다
ConceptARC에는 총 하위 카테고리 16개
, 카테고리당 30문항, 총 480문항.
이 16개의 하위 범주에는 위치 관계, 모양, 연산, 비교 등이 포함됩니다.
구체적으로 이러한 질문은 픽셀 블록으로 구성됩니다. 인간과 GPT는 주어진 예를 기반으로 패턴을 찾고 동일한 방식으로 처리된 이미지의 결과를 분석해야 합니다저자는 논문에서 이러한 16개 하위 범주의 예를 각 범주별로 하나씩 구체적으로 보여줍니다.
그 결과, 451명의 인간 피험자의 평균 정확도는 각 하위 항목에서 83% 이상, 16개 작업의 평균은 91%에 달하는 것으로 나타났습니다.
3번 문제를 풀 수 있는 경우(한 번 맞췄을 경우) GPT-4(단일 샘플)의 최고 정확도는 60%를 넘지 않으며 평균은 33%에 불과합니다
모닝 얼마 전 이 실험에 참여한 ConceptARC Benchmark 작성자도 비슷한 실험을 했는데, GPT-4에서 zero-sample test
를 진행한 결과 16개 작업의 평균 정확도가 나왔습니다. 19%에 불과하다.
GPT-4v는 다중 모드 모델이지만 정확도가 낮습니다. 48개 문항으로 구성된 소규모 ConceptARC 데이터 세트에서 영표본 검정과 단일 표본 검정의 정확도는 각각 25%, 23%에 불과했습니다. 일부 사람의 실수는 "부주의"로 인해 발생할 가능성이 높은 반면 GPT는 질문의 규칙을 완전히 이해하지 못했습니다
.
대부분의 네티즌들은 이러한 데이터에 대해 의심을 품지 않고 있지만, 이번 실험이 의문점을 갖게 된 것은 모집된 피험자 그룹과 GPT에 제공되는 입력 방식 때문이었습니다
처음에는 연구 참가자를 모집한 Amazon 크라우드소싱 플랫폼의 주제.
연구원은 입문 테스트로 데이터 세트에서 몇 가지 간단한 질문을 추출했습니다. 피험자는 정식 테스트에 들어가기 전에 무작위 질문 3개 중 최소 2개 이상을 정확하게 답해야 합니다.
연구자들이 알아낸 결과에 따르면 일부 사람들은 돈 욕심으로만 입학 시험을 치르고, 요구되는 문제를 전혀 완료하지 않는 것으로 나타났습니다
최후의 수단으로 연구원은응시 기준을 높입니다. 테스트플랫폼에서 완료할 수 있는 지점까지 2,000개 이상의 작업을 통과하고 통과율이 99%에 도달해야 합니다.
그러나 저자는 합격률을 사용하여 사람을 선별하지만, 특정 능력 측면에서는 피험자가 영어를 알아야 할 필요와는 별도로 그래픽과 같은 다른 전문 능력에 대한 "특별한 요구 사항"은 없습니다.
데이터 다양성을 달성하기 위해 연구원들은 실험 후반에 모집 활동을 다른 크라우드소싱 플랫폼으로 옮겼습니다. 결국 이번 실험에는 총 415명의 피험자가 참여하게 되었습니다
그러나 일부 사람들은 여전히 실험에 사용된 샘플이 "충분히 무작위적이지 않다"라는 의문을 제기했습니다.
일부 네티즌들은 연구자들이 피험자를 모집하기 위해 사용하는 아마존 크라우드소싱 플랫폼에 인간인 척하는 대형 모델이 있다는 점을 지적했습니다.
GPT 멀티 모달 버전의 작업은 비교적 간단합니다. 이미지를 직접 전달하고 해당 프롬프트 단어를 사용하세요
제로 샘플 테스트에서는 해당 EXAMPLE 부분을 삭제하세요
하지만 다중 양식이 없는 GPT-4(0613)의 일반 텍스트 버전의 경우 이미지를 그리드 포인트로 변환해야 하며 색상 대신 숫자를 사용해야 합니다.
이 작업에 동의하지 않는 사람도 있습니다.
이미지를 디지털 매트릭스로 변환한 후 개념이 완전히 바뀌었습니다. 심지어 인간도 숫자로 표시되는 "그래픽"을 보면 도저히 이해할 수 없습니다. 이해하든지
공교롭게도 스탠포드 대학의 중국 박사과정 학생 Joy Hsu도 기하학적 데이터 세트에서 GPT-4v의 그래프 이해 능력을 테스트했습니다
작년에 데이터 세트는 대형 모델을 사용하여 유클리드 기하학에 대한 이해를 테스트하는 것을 목표로 출시되었습니다. GPT-4v를 연 후 Hsu는 데이터 세트를 사용하여 다시 테스트한 결과 GPT-4v가 "인간과 완전히 다르게" 그래픽을 이해하는 것으로 나타났습니다.
데이터 측면에서 GPT-4v는 이러한 기하학적 질문에 대답하는 데 있어서 분명히 인간보다 열등합니다
논문 주소:[1]https://arxiv.org/abs/2305.07141[2 ]https://arxiv.org/abs/2311.09247
위 내용은 GPT-4는 그래프 추론에서 제대로 작동하지 않습니까? 물을 흘려도 정확도는 33%에 불과하다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!