새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상
오픈 도메인 감지 문제는 인터넷에서 크롤링된 다수의 이미지-텍스트 쌍 또는 업스트림 교육을 위해 수동으로 주석이 달린 데이터의 특정 카테고리를 사용하여 다운스트림 시나리오에서 임의 카테고리 감지를 구현하는 방법에 대한 문제를 나타냅니다. 업계에서 개방형 도메인 감지 방법의 적용에는 주로 자율 주행 시스템의 도로 물체 감지, 클라우드 전체 장면 감지 등이 포함됩니다.
논문 주소: https://arxiv.org/abs/2209.09407
이 기사는 NeurIPS 2022에서 선정된 논문 "DetCLIP: Dictionary-Enriched Visual-Concept Paralled Pre-training for Open"을 공유합니다. -world 탐지"에서는 개방형 도메인 탐지 문제를 위해 여러 데이터 소스를 공동으로 결합하기 위한 효율적인 병렬 훈련 프레임워크를 제안하고, 카테고리 간의 암시적 관계를 제공하기 위한 추가 지식 기반을 구축합니다. 동시에 DetCLIP은 Microsoft가 주최한 ECCV2022 OdinW(ObjectDetection in the Wild[1]) 대회에서 평균 감지 지수 24.9%로 제로 샷 감지 트랙에서 1위를 차지했습니다.
문제 소개
인터넷에서 크롤링된 이미지와 텍스트 쌍을 기반으로 훈련된 다중 모달 사전 훈련 모델(예: CLIP)의 인기와 제로샷 분류 분야에서 뛰어난 성능으로 , 점점 더 많은 방법이 이 기능을 개방형 도메인 밀집 예측(예: 임의 범주 감지, 분할 등)으로 전환하려고 시도합니다. 기존 방법은 특징 수준 증류를 위해 사전 학습된 대규모 분류 모델을 사용하거나[1] 의사 라벨링 캡션 및 자체 학습을 통해 학습하는 경우가 많지만[2] 이는 대규모 분류 모델의 성능으로 인해 제한되는 경우가 많습니다. 불완전한 캡션 주석.
기존 SOTA 오픈 도메인 탐지 모델 GLIP[3]은 다양한 데이터 소스의 장점을 최대한 활용하여 탐지 데이터 형식을 Grounding 데이터 형식으로 변환하여 여러 데이터 소스에 대한 공동 학습을 수행합니다. 세트에는 공통 범주에 대한 특별한 요구 사항이 있으며 더 완전한 주석이 있는 반면 Grounding 데이터 세트에는 더 넓은 범위의 범주 커버 간격이 있습니다. 그러나 카테고리 명사를 연결하는 방식은 모델의 전반적인 학습 효율성을 감소시키는 반면, 카테고리 단어를 텍스트 입력으로 직접 사용하는 것은 카테고리 간의 세분화된 선험적 관계를 제공할 수 없음을 발견했습니다.
그림 1: 다중 데이터 소스 공동 사전 학습 오픈 도메인 탐지 모델 파이프라인
모델 프레임워크
아래 그림과 같이 ATSS를 기반으로 구축되었습니다[4 ] 단일 단계 감지 모델, DetCLIP 감지 상자의 이미지 특징을 얻기 위한 이미지 인코더 와 카테고리의 텍스트 특징을 얻기 위한 텍스트 인코더 가 포함되어 있습니다. . 그런 다음 위의 이미지 특징과 텍스트 특징을 기반으로 해당 분류 정렬 손실 , 중심점 손실 및 회귀 손실 이 계산됩니다.
그림 2: DetCLIP 모델 프레임워크
그림 2의 오른쪽 상단과 왼쪽 상단에 표시된 것처럼 이 기사의 주요 혁신 사항은 1) 여러 데이터 소스 개체 처리 제안 병렬 입력 - 텍스트 통합 훈련 효율성을 최적화하기 위한 훈련 프레임워크 2) 개방형 도메인 탐지 훈련을 지원하기 위한 추가 객체 지식 기반을 구축합니다.
다중 데이터 소스 병렬 입력 사전 훈련 프레임워크
탐지 데이터를 카테고리 명사를 이어붙여 접지 형식(연속)으로 변환하는 GLIP과 비교하여 접지 데이터에서 해당 명사구를 추출하여 탐지와 결합합니다. 카테고리는 독립적인 입력으로 사용되며 불필요한 주의 계산을 피하고 더 높은 훈련 효율성을 달성하기 위해 텍스트 인코더에 (병렬로) 입력됩니다.
그림 3: DetCLIP 병렬 입력 사전 훈련 프레임워크와 GLIP
객체 지식 기반
의 비교 다양한 데이터 소스의 범주 공간이 균일하지 않은 문제를 해결하기 위해( 동일한 카테고리 이름이 다르거나 카테고리에 포함 등)을 제공하고 카테고리 간의 관계에 대한 사전 정보를 제공하여 보다 효율적인 학습을 달성하기 위해 객체 지식 기반을 구축합니다.
구성: 감지 데이터의 카테고리, 이미지-텍스트 쌍의 명사구, 해당 정의를 동시에 통합하여 객체 지식 기반을 구축합니다.
사용법: 1. 객체 지식베이스의 정의를 사용하여 기존 탐지 데이터의 카테고리 단어를 확장하여 카테고리 간의 관계에 대한 사전 정보(Concept Enrichment)를 제공합니다.
그림 4: 카테고리 단어 정의를 확장하기 위해 객체 지식 베이스를 사용한 예
2. 접지 데이터 및 이미지 캡션 데이터의 불완전한 캡션 주석 문제로 인해(나타남) 사진에서) 카테고리는 캡션에 표시되지 않음), 결과적으로 이러한 이미지를 훈련할 때 네거티브 샘플로 사용할 수 있는 매우 적은 수의 카테고리가 생성되고, 결과적으로 일부 흔하지 않은 카테고리에 대해 모델의 구별이 어려워집니다. 따라서 우리는 희귀 카테고리 특징(+Negative Samples)에 대한 모델의 식별력을 향상시키기 위해 객체 지식 기반에서 객체 명사를 음성 샘플 카테고리로 무작위로 선택합니다.
그림 5: 객체 지식 베이스의 카테고리를 네거티브 샘플 카테고리로 도입
3 프레임 주석이 없는 이미지-텍스트 쌍 데이터의 경우 Huawei Noah의 자체 조사 The 모델 FILIP [5]와 사전 훈련된 RPN 레이블을 지정하여 훈련을 위한 일반 접지 데이터로 변환할 수 있습니다. 동시에, 캡션의 그림에 있는 개체의 불완전한 주석 문제를 완화하기 위해 개체 지식 베이스의 모든 카테고리 문구를 의사 라벨링(두 번째 줄)의 후보 카테고리로 사용하고 카테고리만 사용합니다. 캡션(첫 번째 행)의 주석 효과) 비교는 다음과 같습니다.
그림 6: 객체 지식 베이스의 카테고리를 허위 라벨링의 후보 카테고리로 도입
실험 결과
다운스트림 LVIS 탐지 데이터 세트(1203개 카테고리)를 사용하여 제안된 방법의 개방형 도메인 탐지 성능을 검증했습니다. swin-t 백본 기반 아키텍처에서 DetCLIP이 9.9% AP 개선을 달성했음을 확인할 수 있습니다. 기존 SOTA 모델 GLIP과 비교하여 Rare 카테고리에서 12.4가 향상되었습니다. 단, GLIP에 비해 데이터 양이 절반도 안 됩니다. 참고로 트레이닝 세트에는 LVIS의 이미지가 포함되어 있지 않습니다.
표 1: LVIS에서 다양한 방법의 제로샷 전송 성능 비교
훈련 효율성 측면에서 동일한 32개의 V100 하드웨어 조건을 기준으로 GLIP의 훈련 시간 -T는 -T의 DetCLIP 5배입니다(10.7K GPU 시간 대 2.0K GPU 시간). 테스트 효율성 측면에서는 단일 V100 기준으로 DetCLIP-T의 추론 효율성이 2.3FPS(이미지당 0.4초)로 GLIP-T의 0.12FPS(이미지당 8.6초)보다 20배 높습니다. 또한 DetCLIP의 주요 혁신(병렬 프레임워크 및 개체 지식 기반)이 정확도에 미치는 영향을 별도로 연구했습니다.
표 3: LVIS 데이터 세트에 대한 DetCLIP 절제 연구 결과
시각화 결과
아래 그림과 같이 동일한 swin-t 백본을 기반으로 LVIS 데이터 세트에 대한 시각화 특히 희귀 카테고리의 주석과 주석의 완성도에서 GLIP에 비해 효과가 크게 향상되었습니다.
그림 7: LVIS 데이터세트에 대한 DetCLIP 및 GLIP 예측 결과의 시각적 비교
위 내용은 새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Excel에서 여러 기준으로 필터링을 사용하는 방법을 알아야 하는 경우 다음 자습서에서는 데이터를 효과적으로 필터링하고 정렬할 수 있는 단계를 안내합니다. Excel의 필터링 기능은 매우 강력하며 많은 양의 데이터에서 필요한 정보를 추출하는 데 도움이 될 수 있습니다. 이 기능을 사용하면 설정한 조건에 따라 데이터를 필터링하고 조건에 맞는 부분만 표시하여 데이터 관리를 더욱 효율적으로 할 수 있습니다. 필터 기능을 사용하면 대상 데이터를 빠르게 찾을 수 있어 데이터 검색 및 정리에 드는 시간을 절약할 수 있습니다. 이 기능은 단순한 데이터 목록에만 적용할 수 있는 것이 아니라, 여러 조건에 따라 필터링하여 필요한 정보를 보다 정확하게 찾을 수 있도록 도와줍니다. 전반적으로 Excel의 필터링 기능은 매우 실용적입니다.

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

다중 모드 문서 이해 기능을 위한 새로운 SOTA! Alibaba mPLUG 팀은 최신 오픈 소스 작업인 mPLUG-DocOwl1.5를 출시했습니다. 이 작품은 고해상도 이미지 텍스트 인식, 일반 문서 구조 이해, 지침 따르기, 외부 지식 도입이라는 4가지 주요 과제를 해결하기 위한 일련의 솔루션을 제안했습니다. 더 이상 고민하지 말고 먼저 효과를 살펴보겠습니다. 복잡한 구조의 차트도 한 번의 클릭으로 인식하고 마크다운 형식으로 변환 가능: 다양한 스타일의 차트 사용 가능: 보다 자세한 텍스트 인식 및 위치 지정도 쉽게 처리 가능: 문서 이해에 대한 자세한 설명도 제공 가능: 아시다시피, " 문서 이해"는 현재 대규모 언어 모델 구현을 위한 중요한 시나리오입니다. 시장에는 문서 읽기를 지원하는 많은 제품이 있습니다. 그 중 일부는 주로 텍스트 인식을 위해 OCR 시스템을 사용하고 텍스트 처리를 위해 LLM을 사용합니다.

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.
