ImageNet 라벨 오류가 제거되고 모델 순위가 크게 변경되었습니다.
이전에는 ImageNet에서 라벨 오류 문제로 화제가 되기도 했습니다. 이 숫자를 들으면 놀랄 수도 있습니다. 문제가 있는 라벨이 최소 10만 개에 달합니다. 잘못된 라벨을 기반으로 한 연구는 뒤집어지고 반복되어야 할 수도 있습니다.
이러한 관점에서 데이터 세트의 품질을 관리하는 것은 여전히 매우 중요합니다.
많은 사람들이 ImageNet 데이터 세트를 벤치마크로 사용하지만 ImageNet 사전 훈련된 모델을 기반으로 하면 데이터 품질로 인해 최종 결과가 달라질 수 있습니다.
이 기사에서는 Adansons Company의 엔지니어인 Kenichi Higuchi가 "Are we done with ImageNet?" 기사에서 ImageNet 데이터 세트를 다시 연구하고, 잘못된 라벨 데이터를 제거한 후 토치비전에서 공개된 모델을 재평가합니다. .
ImageNet에서 잘못된 데이터를 제거하고 모델을 재평가합니다
이 문서에서는 ImageNet의 라벨링 오류를 아래와 같이 세 가지 범주로 나눕니다.
(1) 라벨이 잘못 지정된 데이터
(2) 여러 라벨에 해당하는 데이터
(3) 어떤 라벨에도 속하지 않는 데이터
요약하면 약 14,000개 이상의 잘못된 데이터가 있습니다. 평가 데이터 수가 50,000개라는 점을 고려하면, 잘못된 데이터의 비율이 매우 높다는 것을 알 수 있다. 아래 그림은 대표적인 오류 데이터 중 일부를 보여줍니다.
방법
본 연구에서는 모델을 재교육하지 않고 위의 (1) 오류 데이터인 오류 라벨링된 데이터만 제거하고, 모든 오류 데이터를 평가 데이터에서 제외합니다. -(3) 모델의 정확성을 재확인하기 위한 잘못된 데이터.
잘못된 데이터를 제거하기 위해서는 라벨 오류 정보를 기술한 메타데이터 파일이 필요합니다. 이 메타데이터 파일에 (1)-(3) 유형의 오류가 포함된 경우 해당 정보는 "correction" 속성에 설명됩니다.
이 연구에서는 데이터세트를 메타데이터에 연결하여 데이터를 필터링하는 Adansons Base라는 도구를 사용했습니다. 아래 그림과 같이 10개 모델이 여기서 테스트되었습니다.
10가지 테스트용 이미지 분류 모델
결과
결과는 아래 표와 같습니다(값은 정확도(%), 괄호 안의 숫자는 순위)
10 결과 분류 모델의
모든 평가 데이터를 기준으로 잘못된 데이터 유형(1)을 제외하면 정확도가 평균 3.122포인트 증가합니다(1)~(3). 정확도는 평균 11.743포인트 증가합니다.
역시 잘못된 데이터를 제외하면 전반적으로 정확도가 향상됩니다. 깨끗한 데이터에 비해 잘못된 데이터는 오류가 발생하기 쉽기 때문입니다.
오류 데이터를 제외하지 않고 평가할 때와, 오류 데이터 (1)~(3)을 모두 제외하면 모델의 정확도 순위가 변경됩니다.
이 글에는 3,670개의 잘못된 데이터(1)가 있는데, 이는 전체 데이터 50,000개 중 7.34%를 차지하며, 제거 후 정확도가 평균 약 3.22포인트 증가했습니다. 잘못된 데이터가 제거되면 데이터 규모가 변경되고 단순 정확도 비율 비교가 편향될 수 있습니다.
결론
특별히 강조하지는 않지만 평가 훈련을 할 때 정확하게 라벨링된 데이터를 사용하는 것이 중요합니다.
이전 연구에서는 모델 간의 정확도를 비교할 때 잘못된 결론을 도출했을 수 있습니다. 그러면 데이터를 먼저 평가해야 하는데, 이것이 실제로 모델의 성능을 평가하는 데 사용될 수 있을까요?
딥러닝을 사용하는 많은 모델은 데이터에 대한 반영을 무시하는 경우가 많지만, 모델의 성능을 통해 정확도 및 기타 평가 지표를 향상시키려는 노력은 평가 데이터에 잘못된 데이터가 포함되어 있어도 정확하게 처리되지 않습니다.
AI를 비즈니스에 적용하는 등 나만의 데이터 세트를 만들 때 고품질의 데이터 세트를 만드는 것은 AI의 정확성과 신뢰성 향상과 직결됩니다. 본 논문의 실험 결과는 단순히 데이터 품질을 개선하면 정확도를 약 10%포인트 정도 향상시킬 수 있음을 보여주며, 이는 AI 시스템 개발 시 모델뿐만 아니라 데이터 세트 개선의 중요성을 보여준다.
그러나 데이터 세트의 품질을 보장하는 것은 쉽지 않습니다. AI 모델과 데이터의 품질을 적절하게 평가하려면 메타데이터의 양을 늘리는 것이 중요하지만, 특히 구조화되지 않은 데이터의 경우 관리가 번거로울 수 있습니다.
위 내용은 ImageNet 라벨 오류가 제거되고 모델 순위가 크게 변경되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

Debian에서 Hadoop 로그 관리하면 다음 단계 및 모범 사례를 따라갈 수 있습니다. 로그 집계 로그 집계 : Yarn-site.xml 파일에서 Ture에서 True로 설정 할 수 있도록 설정 : 로그 집계를 활성화하십시오. 로그 보유 정책 구성 : 172800 초 (2 일)와 같이 로그의 유지 시간을 정의하기 위해 yarn.log-aggregation.retain-seconds를 설정하십시오. 로그 저장 경로를 지정하십시오 : Yarn.n을 통해
