OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원
OOD(Out-of-distribution) 감지는 개방형 지능형 시스템의 안정적인 작동을 위해 매우 중요하지만 현재의 객체 지향 감지 방법은 "평가 불일치" 문제로 어려움을 겪고 있습니다.
이전 작업 OpenOOD v1은 OOD 감지 평가를 통합했지만 여전히 확장성과 유용성에 한계가 있습니다.
최근 개발팀은 다시 한번 OpenOOD v1.5를 제안했습니다. 이전 버전에 비해 새로운 OOD 탐지 방법 평가는 정확성, 표준화 및 사용자 친화성을 보장하는 데 크게 향상되었습니다.
Pictures
Paper: https://arxiv.org/abs/2306.09301
OpenOOD 코드베이스: https://github.com/Jingkang50/OpenOOD
OpenOOD 리더보드: https://zjysteven. github.io/OpenOOD/
특히 OpenOOD v1.5는 평가 기능을 ImageNet과 같은 대규모 데이터 세트로 확장하고 중요하지만 아직 개발되지 않은 전체 스펙트럼 OOD 감지를 연구하며 새로운 기능을 도입합니다. -사용할 평가자.
이 작업은 또한 포괄적인 실험 결과를 통한 심층 분석과 통찰력에 기여하여 OOD 감지 방법에 대한 지식 기반을 풍부하게 합니다.
이러한 개선 사항을 통해 OpenOOD v1.5는 OOD 연구의 발전을 촉진하고 OOD 탐지 연구에 대한 보다 강력하고 포괄적인 평가 벤치마크를 제공하는 것을 목표로 합니다.
연구 배경
잘 훈련된 이미지 분류기의 경우 오픈 월드에서 안정적으로 작동할 수 있게 해주는 핵심 기능은 알려지지 않은 배포되지 않은(OOD) 샘플을 감지하는 것입니다.
예를 들어, 우리는 고양이와 개 사진 세트를 사용하여 고양이와 개 분류기를 훈련했습니다. 분포 내(ID) 샘플, 즉 여기서는 고양이와 개 사진의 경우 분류기가 이를 해당 카테고리로 정확하게 식별할 것으로 자연스럽게 기대합니다.
배포되지 않은 OOD 샘플, 즉 고양이와 개 이외의 사진(예: 비행기, 과일 등)의 경우 모델이 알 수 없는 새로운 개체/개념임을 감지할 수 있기를 바랍니다. , 따라서 배포판 내에서 고양이나 개 카테고리로 분류할 수 없습니다.
이 문제는 최근 폭넓은 주목을 받고 있는 배포외 탐지(OOD 탐지)이며, 새로운 작품이 속속 등장하고 있습니다. 그러나 이 분야가 급속도로 확대되고 있는 반면, 여러 가지 이유로 해당 분야의 발전 현황을 추적하고 측정하는 것이 어려워지고 있다.
원인 1: 일관되지 않은 테스트 OOD 데이터 세트.
다양한 딥 러닝 작업의 급속한 발전은 통합 테스트 데이터 세트(이미지 분류를 위한 CIFAR, ImageNet, 객체 감지를 위한 PASCAL VOC, COCO와 마찬가지로)와 분리될 수 없습니다.
그러나 안타깝게도 OOD 감지 분야에는 통합되고 널리 채택되는 OOD 데이터 세트가 항상 부족했습니다. 이로 인해 위 그림과 같이 기존 작업의 실험 설정을 다시 살펴보면 사용된 OOD 데이터가 매우 불일치하다는 것을 알 수 있습니다(예를 들어 ID 데이터인 CIFAR-10의 경우 일부 작업에서는 MNIST와 SVHN을 사용합니다. OOD로 일부 작품에서는 CIFAR-100, Tiny ImageNet을 OOD로 사용합니다. 이러한 상황에서 모든 방법을 직접적이고 공정하게 비교하는 것은 심각한 어려움에 직면합니다.
이유 2: 혼란스러운 용어.
OOD 감지 외에도 "OSR(Open-Set Recognition)" 및 "참신성 감지"와 같은 다른 용어도 문헌에 자주 등장합니다.
그들은 본질적으로 동일한 문제에 초점을 맞추며 일부 실험 설정의 세부 사항에는 약간의 차이만 있습니다. 그러나 서로 다른 용어로 인해 방법 간에 불필요한 분기가 발생할 수 있습니다. 예를 들어 OOD 감지와 OSR은 한때 두 개의 독립적인 작업으로 간주되었으며 서로 다른 분기 간에는 동일한 문제를 함께 비교하는 방법이 거의 없었습니다.
원인 3: 잘못된 작동.
많은 연구에서 연구자들은 매개변수를 조정하거나 모델을 훈련시키기 위해 OOD 테스트 세트의 샘플을 직접 사용하는 경우가 많습니다. 이러한 작업은 방법의 OOD 감지 기능을 과대평가하게 됩니다.
위의 문제는 분명히 해당 분야의 질서 있는 개발에 해를 끼치며, 기존 및 미래의 OOD 탐지 방법을 테스트하고 평가하기 위한 통합된 벤치마크와 플랫폼이 시급히 필요합니다.
OpenOOD는 그러한 도전 속에서 탄생했습니다. 첫 번째 버전은 중요한 진전을 이루었지만 규모가 작고 사용성 측면에서 개선이 필요한 문제를 안고 있습니다.
따라서 OpenOOD v1.5의 새 버전에서는 이를 더욱 강화하고 업그레이드하여 대다수 연구자를 위한 포괄적이고 정확하며 사용하기 쉬운 테스트 플랫폼을 만들기 위해 노력하고 있습니다.
요약하면 OpenOOD에는 다음과 같은 중요한 기능과 기여가 있습니다.
1 거대한 모듈식 코드 기반.
이 코드 베이스는 모델 구조, 데이터 전처리, 후처리, 교육, 테스트 등을 이해하고 모듈화하여 재사용 및 개발을 용이하게 합니다. 현재 OpenOOD는 이미지 분류 작업을 위해 약 40개의 최첨단 OOD 감지 방법을 구현합니다.
그림
2. 한 번의 클릭으로 테스트할 수 있는 평가기.
위 그림과 같이 OpenOOD의 평가자는 몇 줄의 코드만으로 지정된 ID 데이터 세트에 대해 제공된 분류기와 후처리기의 OOD 감지 테스트 결과를 제공할 수 있습니다.
해당 OOD 데이터는 평가자가 내부적으로 결정하여 제공하므로 테스트의 일관성과 공정성이 보장됩니다. 또한 평가자는 표준 OOD 감지(표준 OOD 감지) 및 전체 스펙트럼 OOD 감지(전체 스펙트럼 OOD 감지) 시나리오를 모두 지원합니다(나중에 자세히 설명).
3. 온라인 순위.
OpenOOD를 사용하여 CIFAR-10, CIFAR-100, ImageNet-200 및 ImageNet-1K의 4가지 ID 데이터 세트에 대해 약 40가지 OOD 탐지 방법의 성능을 비교하고 그 결과를 공개 순위 목록으로 만들었습니다. 언제든지 현장에서 가장 효과적이고 유망한 방법을 모든 사람이 이해하는 데 도움이 되기를 바랍니다.
4. 실험 결과의 새로운 발견.
OpenOOD의 종합적인 실험 결과를 바탕으로 우리는 논문에서 많은 새로운 발견을 제공합니다. 예를 들어 OOD 탐지와 관련이 거의 없는 것처럼 보이지만 데이터 증대는 실제로 OOD 탐지 성능을 효과적으로 향상시킬 수 있으며 이러한 개선은 특정 OOD 탐지 방법을 통해 가져온 개선과 직교하고 보완적입니다.
또한, 전체 스펙트럼 OOD 검출에서 기존 방법의 성능이 만족스럽지 않다는 것을 발견했으며, 이는 향후 분야에서 해결해야 할 중요한 문제이기도 합니다.
문제 설명
이 부분에서는 표준 및 전체 스펙트럼 OOD 감지의 목표를 간략하고 대중적으로 설명합니다. 더 자세하고 공식적인 설명을 보려면 우리 논문을 읽어보세요.
Pictures
먼저 배경을 살펴보세요. 우리가 고려하는 이미지 분류 시나리오에서 분포 내(ID) 데이터는 해당 분류 작업에 의해 정의됩니다. 예를 들어 CIFAR-10 분류의 경우 ID 분포는 10개의 의미 범주에 해당합니다.
OOD의 개념은 ID를 기준으로 형성됩니다. ID 의미 카테고리 이외의 모든 의미 카테고리에 해당하고 ID 카테고리와 다른 사진은 배포되지 않은 OOD 이미지입니다. 동시에 우리는 다음과 같은 두 가지 유형의 분배 이동에 대해 논의할 필요가 있습니다.
의미적 변화: 위 그림의 가로축에 해당하는 깊은 의미 수준에서 분포가 변경됩니다. 예를 들어, 의미 범주는 훈련 중 고양이와 개이고, 의미 범주는 테스트 중 비행기와 과일입니다.
공변량 이동: 위 그림의 세로 축에 해당하는 표면 통계 수준에서 분포가 변경됩니다(의미는 변경되지 않은 채 유지됨). 예를 들어 훈련 중에는 깨끗하고 자연스러운 고양이와 개 사진이 있고, 테스트 중에는 노이즈가 추가된 고양이와 개 사진이나 손으로 그린 이미지가 있습니다.
위 배경을 위 그림과 결합하면 표준 및 전체 스펙트럼 OOD 감지를 쉽게 이해할 수 있습니다.
표준 OOD 감지
목표(1): ID 데이터를 정확하게 분류할 수 있도록 ID 분포에 대해 분류기를 훈련합니다. 여기서는 테스트 ID 데이터와 훈련 ID 데이터 사이에 공변량 이동이 없다고 가정합니다.
목표(2): 훈련된 분류자를 기반으로 모든 샘플을 ID/OOD라는 두 가지 범주로 분류할 수 있도록 OOD 감지 방법을 설계합니다. 위 그림에서 해당하는 것은 (a)와 (c) + (d)를 구별한 것입니다.
전체 스펙트럼 OOD 감지
목표(1): 표준 OOD 감지와 유사하지만 차이점은 공변량 이동이 고려된다는 것입니다. 훈련 이미지를 바탕으로 분류기는 해당 ID 카테고리를 정확하게 분류해야 합니다. 예를 들어 고양이와 개 분류기는 "깨끗한" 고양이와 개 사진을 정확하게 분류할 뿐만 아니라 시끄럽고 흐릿한 고양이와 개를 일반화할 수 있어야 합니다. 영화).
목표(2): 또한 일반(공변량 이동 없음) ID 샘플과 함께 OOD 샘플과 구별되어야 하는 공변량 이동 ID 샘플을 고려합니다. 위 그림의 (a) + (b)와 (c) + (d)의 구별에 해당합니다.
전체 스펙트럼 OOD 테스트가 왜 중요한가요?
친숙한 친구들은 전체 스펙트럼 OOD 탐지의 대상(1)이 실제로 또 다른 매우 중요한 연구 주제인 분포 외 일반화(OOD 일반화)에 해당한다는 것을 발견했을 수 있습니다.
OOD 일반화에서 OOD는 공변량 변화가 있는 표본을 의미하는 반면, OOD 탐지에서 OOD는 의미 변화가 있는 표본을 의미한다는 점을 명확히 할 필요가 있습니다.
두 종류의 교대는 현실 세계에서 매우 일반적입니다. 그러나 기존 OOD 일반화와 표준 OOD 감지는 둘 중 하나만 고려하고 다른 하나는 무시합니다.
반면, 전체 스펙트럼 OOD 감지는 자연스럽게 동일한 시나리오에서 두 오프셋을 함께 고려하여 이상적인 분류기가 열린 세상에서 어떻게 작동할지에 대한 우리의 기대를 더 정확하게 반영합니다.
실험 결과 및 새로운 발견
버전 1.5에서 OpenOOD는 6개의 벤치마크 데이터 세트(표준 OOD 감지용 4개, 전체 스펙트럼 OOD 감지용 2개)에 대해 거의 40가지 방법을 비교합니다. 통합되고 포괄적인 테스트가 수행되었습니다.
구현된 방법과 데이터 세트는 논문에 설명되어 있으며 누구나 확인하실 수 있습니다. 모든 실험은 OpenOOD 코드 베이스에서도 재현 가능합니다. 여기에서는 비교 결과에서 도출된 결과를 직접 논의합니다.
Pictures
발견 1: 단일 승자는 없습니다.
위 표에서 어떤 방법도 모든 벤치마크 데이터 세트에서 일관되게 뛰어난 성능을 제공할 수 없다는 것을 어렵지 않게 찾을 수 있습니다.
예를 들어 사후 추론 방법인 ReAct와 ASH는 대규모 데이터 세트 ImageNet에서 잘 수행되지만 CIFAR에서는 다른 방법에 비해 이점이 없습니다.
반면, RotPred 및 LogitNorm과 같이 훈련에 제약 조건을 추가하는 일부 훈련 방법은 소규모 데이터 세트에 대한 후처리 방법보다 우수하지만 ImageNet에서는 뛰어나지 않습니다.
발견 2: 데이터 증강에 도움이 됩니다.
위 표에 표시된 것처럼 데이터 증강은 OOD 탐지를 위해 특별히 설계되지는 않았지만 OOD 탐지 성능을 효과적으로 향상시킬 수 있습니다. 더욱 놀라운 점은 데이터 증강으로 인한 개선과 특정 OOD 후처리 방법으로 인한 개선이 서로 증폭된다는 점입니다.
AugMix를 예로 들면, 가장 간단한 MSP 후처리기와 결합하면 ImageNet-1K Near-OOD 감지율이 77.49%에 도달하는데, 이는 데이터 향상 없이 교차 엔트로피 손실보다 낮습니다(corss- 엔트로피 손실) 훈련의 탐지율은 77.38%로 1.47% 더 높습니다.
그러나 AugMix가 더욱 진보된 ASH 후처리 프로세서와 결합되면 해당 감지율은 교차 엔트로피 기준보다 3.99% 더 높고 테스트에서 가장 높은 82.16%에 도달합니다. 이러한 결과는 데이터 향상과 사후 처리의 결합이 향후 OOD 감지 기능을 더욱 향상시킬 수 있는 큰 잠재력을 가지고 있음을 보여줍니다.
발견 3: 전체 스펙트럼 감지는 현재 감지기에 문제가 됩니다.
위 그림에서 장면이 표준 OOD 감지에서 전체 스펙트럼 OOD 감지로 전환되면(즉, 공변량 이동 ID 이미지가 테스트 ID 데이터에 추가됨) 대부분의 성능이 모든 방법은 상당한 성능 저하를 나타냅니다(검출률이 10% 이상 감소).
이는 현재 방법이 실제 의미가 변경되지 않은 공변량 이동 ID 이미지를 OOD로 분류하는 경향이 있음을 의미합니다.
이 동작은 인간의 인식에 위배됩니다(또한 전체 스펙트럼 OOD 감지의 대상이기도 함). 인간 라벨러가 고양이와 개 사진에 라벨을 지정하고 있다고 가정해 보겠습니다. 이때 그/그녀에게 시끄럽고 흐릿한 고양이와 개 사진의 경우, 여전히 그것이 고양이/개라는 것과 그것이 알려지지 않은 유통 외부 OOD 데이터가 아닌 유통 내부 ID 데이터라는 것을 인식해야 합니다.
일반적으로 현재 방법으로는 전체 스펙트럼 OOD 감지를 효과적으로 해결할 수 없으며, 이는 향후 해당 분야에서 중요한 문제가 될 것이라고 믿습니다.
또한 여기에 나열되지 않은 많은 결과가 있습니다. 예를 들어 데이터 증강은 전체 스펙트럼 OOD 탐지 등에 여전히 효과적입니다. 다시 한 번, 누구나 우리 논문을 읽는 것을 환영합니다.
Outlook
OpenOOD의 코드 베이스, 테스터, 순위, 벤치마크 데이터 세트 및 자세한 테스트 결과를 통해 각계각층의 연구자들이 한자리에 모여 해당 분야의 발전을 촉진할 수 있기를 바랍니다. OpenOOD를 사용하여 OOD 탐지를 개발하고 테스트하는 모든 분들을 기대합니다.
또한 피드백 제공, OpenOOD 코드 베이스 및 순위표에 최신 방법 추가, OpenOOD의 향후 버전 확장 등 OpenOOD에 대한 모든 형태의 기여를 환영합니다.
참고자료: https://arxiv.org/abs/2306.09301
위 내용은 OpenOOD 업데이트 v1.5: 포괄적이고 정확한 배포되지 않은 감지 코드 라이브러리 및 테스트 플랫폼, 온라인 순위 및 원클릭 테스트 지원의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











vivox100s와 x100 휴대폰은 모두 in vivo 휴대폰 제품군의 대표적인 모델입니다. 두 휴대폰은 각각 서로 다른 시대의 vivo 첨단 기술 수준을 대표하므로 디자인, 성능, 기능 면에서 일정한 차이가 있습니다. 이번 글에서는 소비자들이 자신에게 꼭 맞는 휴대폰을 선택할 수 있도록 두 휴대폰을 성능비교와 기능분석 측면에서 자세히 비교해보겠습니다. 먼저 vivox100s와 x100의 성능 비교를 살펴보겠습니다. vivox100s에는 최신 기술이 탑재되어 있습니다.

이 튜토리얼에서는 Windows 11의 숨겨진 성능 오버레이를 공개하는 데 도움을 드립니다. Windows 11의 성능 오버레이 기능을 사용하면 시스템 리소스를 실시간으로 모니터링할 수 있습니다. 컴퓨터 화면에서 실시간 CPU 사용량, 디스크 사용량, GPU 사용량, RAM 사용량 등을 볼 수 있습니다. 이는 게임을 하거나 대용량 그래픽 프로그램(비디오 편집기 등)을 사용할 때, 특정 프로그램을 사용할 때 시스템 성능이 얼마나 영향을 받는지 확인해야 할 때 편리합니다. 시스템 성능을 모니터링하는 데 사용할 수 있는 뛰어난 무료 소프트웨어가 있고 리소스 모니터와 같은 일부 내장 도구를 사용하여 시스템 성능을 확인할 수 있지만 성능 오버레이 기능에도 장점이 있습니다. 예를 들어 현재 사용하고 있는 프로그램이나 앱을 종료할 필요가 없거나

Windows 10 vs. Windows 11 성능 비교: 어느 것이 더 낫나요? 지속적인 기술 개발과 발전으로 운영 체제는 지속적으로 업데이트되고 업그레이드됩니다. 세계 최대 운영 체제 개발자 중 하나인 Microsoft의 Windows 운영 체제 시리즈는 항상 사용자로부터 많은 관심을 받아 왔습니다. 2021년에 Microsoft는 Windows 11 운영 체제를 출시하여 광범위한 논의와 관심을 불러일으켰습니다. 그렇다면 Windows 10과 Windows 11의 성능 차이는 무엇입니까?

Windows 운영 체제는 항상 개인용 컴퓨터에서 가장 널리 사용되는 운영 체제 중 하나였으며, Windows 10은 Microsoft가 새로운 Windows 11 시스템을 출시한 최근까지 오랫동안 Microsoft의 주력 운영 체제였습니다. Windows 11 시스템이 출시되면서 사람들은 Windows 10과 Windows 11 시스템 중 어느 것이 더 나은지에 관심을 가지게 되었습니다. 먼저 W부터 살펴보겠습니다.

모바일 인터넷 시대를 맞아 스마트폰은 국민의 일상생활에서 없어서는 안 될 존재가 되었습니다. 스마트폰의 성능은 사용자 경험의 질을 직접적으로 결정하는 경우가 많습니다. 스마트폰의 '두뇌'인 프로세서의 성능은 특히 중요합니다. 시장에서 Qualcomm Snapdragon 시리즈는 항상 강력한 성능, 안정성 및 신뢰성을 대표해 왔으며 최근 Huawei는 뛰어난 성능을 갖춘 것으로 알려진 자체 Kirin 8000 프로세서도 출시했습니다. 일반 사용자들에게는 강력한 성능의 휴대폰을 어떻게 선택하느냐가 중요한 이슈가 되었다. 오늘 우리는

PHP와 Go는 일반적으로 사용되는 두 가지 프로그래밍 언어이며 서로 다른 특성과 장점을 가지고 있습니다. 그 중 성능 차이는 모두가 일반적으로 우려하는 문제이다. 이 기사에서는 성능 관점에서 PHP와 Go 언어를 비교하고 구체적인 코드 예제를 통해 성능 차이를 보여줍니다. 먼저 PHP와 Go 언어의 기본 기능을 간략하게 소개하겠습니다. PHP는 원래 웹 개발을 위해 설계된 스크립팅 언어로, 배우기 쉽고 사용하기 쉬우며 웹 개발 분야에서 널리 사용됩니다. Go 언어는 Google에서 개발한 컴파일 언어입니다.

Ollama는 Llama2, Mistral, Gemma와 같은 오픈 소스 모델을 로컬에서 쉽게 실행할 수 있는 매우 실용적인 도구입니다. 이번 글에서는 Ollama를 사용하여 텍스트를 벡터화하는 방법을 소개하겠습니다. Ollama를 로컬에 설치하지 않은 경우 이 문서를 읽을 수 있습니다. 이 기사에서는 nomic-embed-text[2] 모델을 사용합니다. 짧은 컨텍스트 및 긴 컨텍스트 작업에서 OpenAI text-embedding-ada-002 및 text-embedding-3-small보다 성능이 뛰어난 텍스트 인코더입니다. o를 성공적으로 설치한 후 nomic-embed-text 서비스를 시작하십시오.

PHP 배열 키 값 뒤집기 방법의 성능 비교는 array_flip() 함수가 대규모 배열(100만 개 이상의 요소)에서 for 루프보다 더 나은 성능을 발휘하고 시간이 덜 걸리는 것을 보여줍니다. 키 값을 수동으로 뒤집는 for 루프 방식은 상대적으로 시간이 오래 걸립니다.
