오픈 도메인 감지 문제는 인터넷에서 크롤링된 다수의 이미지-텍스트 쌍 또는 업스트림 교육을 위해 수동으로 주석이 달린 데이터의 특정 카테고리를 사용하여 다운스트림 시나리오에서 임의 카테고리 감지를 구현하는 방법에 대한 문제를 나타냅니다. 업계에서 개방형 도메인 감지 방법의 적용에는 주로 자율 주행 시스템의 도로 물체 감지, 클라우드 전체 장면 감지 등이 포함됩니다.
논문 주소: https://arxiv.org/abs/2209.09407
이 기사는 NeurIPS 2022에서 선정된 논문 "DetCLIP: Dictionary-Enriched Visual-Concept Paralled Pre-training for Open"을 공유합니다. -world 탐지"에서는 개방형 도메인 탐지 문제를 위해 여러 데이터 소스를 공동으로 결합하기 위한 효율적인 병렬 훈련 프레임워크를 제안하고, 카테고리 간의 암시적 관계를 제공하기 위한 추가 지식 기반을 구축합니다. 동시에 DetCLIP은 Microsoft가 주최한 ECCV2022 OdinW(ObjectDetection in the Wild[1]) 대회에서 평균 감지 지수 24.9%로 제로 샷 감지 트랙에서 1위를 차지했습니다.
인터넷에서 크롤링된 이미지와 텍스트 쌍을 기반으로 훈련된 다중 모달 사전 훈련 모델(예: CLIP)의 인기와 제로샷 분류 분야에서 뛰어난 성능으로 , 점점 더 많은 방법이 이 기능을 개방형 도메인 밀집 예측(예: 임의 범주 감지, 분할 등)으로 전환하려고 시도합니다. 기존 방법은 특징 수준 증류를 위해 사전 학습된 대규모 분류 모델을 사용하거나[1] 의사 라벨링 캡션 및 자체 학습을 통해 학습하는 경우가 많지만[2] 이는 대규모 분류 모델의 성능으로 인해 제한되는 경우가 많습니다. 불완전한 캡션 주석.
기존 SOTA 오픈 도메인 탐지 모델 GLIP[3]은 다양한 데이터 소스의 장점을 최대한 활용하여 탐지 데이터 형식을 Grounding 데이터 형식으로 변환하여 여러 데이터 소스에 대한 공동 학습을 수행합니다. 세트에는 공통 범주에 대한 특별한 요구 사항이 있으며 더 완전한 주석이 있는 반면 Grounding 데이터 세트에는 더 넓은 범위의 범주 커버 간격이 있습니다. 그러나 카테고리 명사를 연결하는 방식은 모델의 전반적인 학습 효율성을 감소시키는 반면, 카테고리 단어를 텍스트 입력으로 직접 사용하는 것은 카테고리 간의 세분화된 선험적 관계를 제공할 수 없음을 발견했습니다.
그림 1: 다중 데이터 소스 공동 사전 학습 오픈 도메인 탐지 모델 파이프라인
아래 그림과 같이 ATSS를 기반으로 구축되었습니다[4 ] 단일 단계 감지 모델, DetCLIP 감지 상자의 이미지 특징을 얻기 위한 이미지 인코더 와 카테고리의 텍스트 특징을 얻기 위한 텍스트 인코더 가 포함되어 있습니다. . 그런 다음 위의 이미지 특징과 텍스트 특징을 기반으로 해당 분류 정렬 손실 , 중심점 손실 및 회귀 손실 이 계산됩니다.
그림 2: DetCLIP 모델 프레임워크
그림 2의 오른쪽 상단과 왼쪽 상단에 표시된 것처럼 이 기사의 주요 혁신 사항은 1) 여러 데이터 소스 개체 처리 제안 병렬 입력 - 텍스트 통합 훈련 효율성을 최적화하기 위한 훈련 프레임워크 2) 개방형 도메인 탐지 훈련을 지원하기 위한 추가 객체 지식 기반을 구축합니다.
탐지 데이터를 카테고리 명사를 이어붙여 접지 형식(연속)으로 변환하는 GLIP과 비교하여 접지 데이터에서 해당 명사구를 추출하여 탐지와 결합합니다. 카테고리는 독립적인 입력으로 사용되며 불필요한 주의 계산을 피하고 더 높은 훈련 효율성을 달성하기 위해 텍스트 인코더에 (병렬로) 입력됩니다.
그림 3: DetCLIP 병렬 입력 사전 훈련 프레임워크와 GLIP
의 비교 다양한 데이터 소스의 범주 공간이 균일하지 않은 문제를 해결하기 위해( 동일한 카테고리 이름이 다르거나 카테고리에 포함 등)을 제공하고 카테고리 간의 관계에 대한 사전 정보를 제공하여 보다 효율적인 학습을 달성하기 위해 객체 지식 기반을 구축합니다.
구성: 감지 데이터의 카테고리, 이미지-텍스트 쌍의 명사구, 해당 정의를 동시에 통합하여 객체 지식 기반을 구축합니다.
사용법: 1. 객체 지식베이스의 정의를 사용하여 기존 탐지 데이터의 카테고리 단어를 확장하여 카테고리 간의 관계에 대한 사전 정보(Concept Enrichment)를 제공합니다.
그림 4: 카테고리 단어 정의를 확장하기 위해 객체 지식 베이스를 사용한 예
2. 접지 데이터 및 이미지 캡션 데이터의 불완전한 캡션 주석 문제로 인해(나타남) 사진에서) 카테고리는 캡션에 표시되지 않음), 결과적으로 이러한 이미지를 훈련할 때 네거티브 샘플로 사용할 수 있는 매우 적은 수의 카테고리가 생성되고, 결과적으로 일부 흔하지 않은 카테고리에 대해 모델의 구별이 어려워집니다. 따라서 우리는 희귀 카테고리 특징(+Negative Samples)에 대한 모델의 식별력을 향상시키기 위해 객체 지식 기반에서 객체 명사를 음성 샘플 카테고리로 무작위로 선택합니다.
그림 5: 객체 지식 베이스의 카테고리를 네거티브 샘플 카테고리로 도입
3 프레임 주석이 없는 이미지-텍스트 쌍 데이터의 경우 Huawei Noah의 자체 조사 The 모델 FILIP [5]와 사전 훈련된 RPN 레이블을 지정하여 훈련을 위한 일반 접지 데이터로 변환할 수 있습니다. 동시에, 캡션의 그림에 있는 개체의 불완전한 주석 문제를 완화하기 위해 개체 지식 베이스의 모든 카테고리 문구를 의사 라벨링(두 번째 줄)의 후보 카테고리로 사용하고 카테고리만 사용합니다. 캡션(첫 번째 행)의 주석 효과) 비교는 다음과 같습니다.
그림 6: 객체 지식 베이스의 카테고리를 허위 라벨링의 후보 카테고리로 도입
다운스트림 LVIS 탐지 데이터 세트(1203개 카테고리)를 사용하여 제안된 방법의 개방형 도메인 탐지 성능을 검증했습니다. swin-t 백본 기반 아키텍처에서 DetCLIP이 9.9% AP 개선을 달성했음을 확인할 수 있습니다. 기존 SOTA 모델 GLIP과 비교하여 Rare 카테고리에서 12.4가 향상되었습니다. 단, GLIP에 비해 데이터 양이 절반도 안 됩니다. 참고로 트레이닝 세트에는 LVIS의 이미지가 포함되어 있지 않습니다.
표 1: LVIS에서 다양한 방법의 제로샷 전송 성능 비교
훈련 효율성 측면에서 동일한 32개의 V100 하드웨어 조건을 기준으로 GLIP의 훈련 시간 -T는 -T의 DetCLIP 5배입니다(10.7K GPU 시간 대 2.0K GPU 시간). 테스트 효율성 측면에서는 단일 V100 기준으로 DetCLIP-T의 추론 효율성이 2.3FPS(이미지당 0.4초)로 GLIP-T의 0.12FPS(이미지당 8.6초)보다 20배 높습니다. 또한 DetCLIP의 주요 혁신(병렬 프레임워크 및 개체 지식 기반)이 정확도에 미치는 영향을 별도로 연구했습니다.
표 3: LVIS 데이터 세트에 대한 DetCLIP 절제 연구 결과
아래 그림과 같이 동일한 swin-t 백본을 기반으로 LVIS 데이터 세트에 대한 시각화 특히 희귀 카테고리의 주석과 주석의 완성도에서 GLIP에 비해 효과가 크게 향상되었습니다.
그림 7: LVIS 데이터세트에 대한 DetCLIP 및 GLIP 예측 결과의 시각적 비교
위 내용은 새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!