지난 10년 동안 ImageNet은 기본적으로 컴퓨터 비전 분야의 '바로미터' 역할을 해왔습니다. 정확도가 향상되면 새로운 기술이 나오는지 알 수 있습니다.
"목록 브러싱"은 항상 모델 혁신의 원동력이 되어 모델의 상위 1위 정확도를 인간보다 높은 90% 이상으로 끌어올렸습니다.
하지만 ImageNet 데이터세트가 우리가 생각하는 것만큼 정말 유용할까요?
많은 논문에서 데이터 범위, 편향 문제, 라벨 완성 여부 등 ImageNet에 의문을 제기했습니다.
가장 중요한 것은 모델의 정확도 90%가 정말 정확할까요?
최근 Google Brain 팀과 University of California, Berkeley의 연구원들은 여러 Sota 모델의 예측 결과를 재검토한 결과 모델의 실제 정확도가 과소평가되었을 수 있음을 발견했습니다!
문서 링크: https://arxiv.org/pdf/2205.04596.pdf
연구원들은 일부 상위 모델에서 발생한 모든 오류를 수동으로 검토하고 분류하여 벤치마크 데이터 세트의 오랜 역사에 대한 통찰력을 얻었습니다. 오류.
주요 초점은 ImageNet의 다중 레이블 하위 집합 평가에 있으며, 최고의 모델은 97%의 Top-1 정확도를 달성할 수 있었습니다.
연구 분석에 따르면 소위 예측 오류 중 거의 절반이 전혀 오류가 아니었고 이미지에서 새로운 다중 레이블도 발견되었습니다. 결과적으로 이러한 모델의 성능은 "과소평가"될 수 있습니다!
숙련되지 않은 크라우드소싱 데이터 주석자는 종종 데이터에 잘못된 레이블을 지정하며 이는 모델 정확도의 신뢰성에 큰 영향을 미칩니다.
ImageNet 데이터 세트를 보정하고 향후 좋은 발전을 촉진하기 위해 연구원들은 기사에 다중 라벨 평가 세트의 업데이트된 버전을 제공하고 sota 모델 예측에 명백한 오류가 있는 68개의 예를 새로운 데이터로 결합합니다. ImageNet-Major를 설정하여 미래의 이력서 연구자들이 이러한 나쁜 사례를 극복하고
"기술적 부채"를 갚을 수 있도록
기사 제목에서 "반죽은 언제 베이글이 되는가?"라는 글의 제목에서 저자가 주로 관심을 갖고 있음을 알 수 있습니다. ImageNet의 라벨링 문제에 대해 이것은 또한 역사에서 남겨진 문제입니다.
아래 사진은 라벨 모호성의 아주 전형적인 예입니다. 사진 속 라벨은 "dough"이고, 모델의 예측 결과는 "bayl" 입니다.
이론적으로 이 모델은 예측 오류가 없습니다. 반죽이 굽는 중이고 베이글이 될 예정이므로 반죽이면서 베이글이기 때문입니다.
모델은 실제로 이 반죽이 베이글이 될 것이라고 예측할 수 있었지만 정확도 측면에서는 이 점수를 얻지 못했다는 것을 알 수 있습니다.
실제로 표준 ImageNet 데이터 세트의 분류 작업을 평가 기준으로 사용하면 다중 레이블 부족, 레이블 노이즈, 지정되지 않은 범주 등의 문제가 불가피합니다.
이러한 객체 식별을 담당하는 크라우드소싱 주석자의 관점에서 이는 다중 라벨링을 통해서만 해결할 수 있는 의미론적, 심지어 철학적인 문제이므로 주로 ImageNet의 파생 데이터 세트에서 개선되는 문제입니다. 라벨링의.
이미지넷이 설립된 지 16년이 지났지만 당시의 주석자와 모델 개발자들은 확실히 오늘날만큼 데이터에 대한 풍부한 이해가 없었으며, 이미지넷은 초기의 대용량, 상대적으로 주석이 잘 달린 데이터였습니다. 설정되어 ImageNet은 자연스럽게 CV 순위의 표준이 되었습니다.
하지만 데이터 라벨링에 드는 예산은 모델 개발 예산만큼 크지 않기 때문에 라벨링 문제를 개선하는 것은 일종의 기술적 부채가 되었습니다.
ImageNet의 나머지 오류를 찾기 위해 연구원들은 JFT-3B를 사전 훈련된 모델로 사용하여 30억 개의 매개변수(89.5% 정확도 달성 가능)가 있는 표준 ViT-3B 모델을 사용했으며 ImageNet에서는 Fine- 튜닝은 1K로 했습니다.
ImageNet2012_multilabel 데이터 세트를 테스트 세트로 사용하여 ViT-3B는 처음에 96.3%의 정확도를 달성했는데, 여기서 모델은 분명히 676개의 이미지를 잘못 예측한 다음 이러한 예에 대한 심층적인 연구를 수행했습니다.
데이터를 다시 라벨링할 때 저자는 크라우드소싱을 선택하지 않고 5명의 전문 검토자로 구성된 팀을 구성하여 라벨링을 수행했습니다. 이러한 유형의 라벨링 오류는 비전문가가 식별하기 어렵기 때문입니다.
예를 들어 그림 (a)에서 일반 주석자는 "테이블"이라고만 쓸 수 있지만 실제로 그림에는 화면, 모니터, 머그 등 다른 개체가 많이 있습니다.
사진(b)의 피사체는 두 사람이지만 라벨은 울타리(울타리)이므로 나비 넥타이, 유니폼 등 라벨이 불완전할 수 있습니다.
사진(c)도 당연한 예입니다. "아프리카 코끼리"만 표시하면 상아는 무시될 수 있습니다.
사진(d)는 호숫가라고 표기되어 있지만 실제로는 해변이라고 표기해도 아무런 문제가 없습니다.
주석의 효율성을 높이기 위해 연구원들은 모델이 예측한 카테고리, 예측 점수, 라벨 및 이미지를 동시에 표시할 수 있는 전용 도구도 개발했습니다.
경우에 따라 전문가 그룹 간에 라벨에 대한 논쟁이 여전히 있을 수 있습니다. 이때 이미지는 라벨링을 돕기 위해 Google 검색에 포함됩니다.
예를 들어, 한 예시에서는 모델의 예측 결과에 택시가 포함되어 있는데, 사진에는 '조금 노란색' 외에는 택시 브랜드가 없습니다.
이 이미지의 주석은 주로 Google 이미지 검색을 기반으로 했으며 이미지의 배경이 상징적인 다리라는 것을 발견했습니다. 그런 다음 연구원들은 이미지가 위치한 도시를 찾아 도시의 택시 이미지를 검색한 후 인식했습니다. 해당 이미지에는 일반 승용차가 아닌 택시가 포함되어 있습니다. 그리고 번호판 디자인 비교에서도 모델의 예측이 맞았다는 사실이 확인됐다.
연구의 여러 단계에서 발견된 오류를 사전 검토한 후 저자는 먼저 심각도에 따라 오류를 두 가지 범주로 나누었습니다.
1. 전공: 인간은 레이블의 의미를 이해할 수 있으며, 모델은 예측은 라벨과 관련이 없습니다.
2. 사소한 오류(Minor): 예측 오류로 인해 라벨이 잘못되었거나 불완전할 수 있습니다. 수정하려면 데이터에 대한 전문가의 검토가 필요합니다.
ViT-3B 모델에서 발생한 155개의 주요 오류에 대해 연구진은 예측 결과의 다양성을 높이기 위해 3개의 다른 모델을 찾아 함께 예측했습니다.
4개 모델 모두 예측에 실패한 68개의 주요 오류가 있으며, 이 예시에 대해 모든 모델의 예측을 분석하여 그 중 어느 것도 정확하지 않음을 새로운 다중 라벨, 즉 각 모델의 예측 결과로 확인했습니다. 정말 중대한 오류였습니다.
이 68개 예시에는 몇 가지 공통된 특징이 있습니다. 첫 번째는 서로 다른 방식으로 훈련된 소타 모델이 이 하위 집합에서 실수를 했으며, 전문 리뷰어도 예측 결과가 전혀 관련이 없다고 생각한다는 것입니다.
68개의 이미지로 구성된 데이터 세트는 후속 연구원이 수동 평가를 용이하게 할 만큼 작습니다. 향후 이러한 68개의 예시가 정복되면 CV 모델은 새로운 혁신을 이룰 수 있습니다.
연구원들은 데이터를 분석하여 예측 오류를 네 가지 유형으로 나누었습니다.
1. 예측된 범주가 실제 레이블과 유사하지만 정확히 동일하지는 않은
2. -어휘(OOV) 오류), 모델은 카테고리가 정확하지만 ImageNet의 객체에 대해 존재하지 않는 클래스를 식별합니다.
3. 예측된 레이블을 이미지의 컨텍스트에서 읽습니다. 4. 비프로토타입: 라벨의 개체가 예측된 라벨과 유사하지만 정확히 동일하지는 않습니다.
연구원들은 원래의 676 오류를 검토한 후 그 중 298개가 정확해야 한다는 사실을 발견했거나 원래 라벨이 잘못되었거나 문제가 있다고 판단했습니다.
일반적으로 기사의 연구 결과에서 다음과 같은 네 가지 결론을 도출할 수 있습니다.
1 대규모의 고정밀 모델이 다른 모델에는 없는 새로운 예측을 하면 그 중 약 50%가 발생합니다.
2. 정확도가 높은 모델은 카테고리와 오류 심각도 사이에 명확한 상관관계가 없습니다.
3. 오늘날의 SOTA 모델은 인간이 평가한 다중 라벨 하위 집합에서 훨씬 더 나은 성능을 발휘합니다.
4. 잡음이 많은 훈련 데이터와 지정되지 않은 카테고리는 이미지 분류 개선의 효과적인 측정을 제한하는 요인이 될 수 있습니다.
아마도 이미지 라벨링 문제는 여전히 자연어 처리 기술이 해결될 때까지 기다려야 할까요?
위 내용은 이력서의 미래는 이 68장의 사진에 있다고요? Google Brain은 ImageNet을 자세히 살펴봅니다. 최고의 모델은 모두 예측에 실패합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!