목차
문제 소개
모델 프레임워크
다중 데이터 소스 병렬 입력 사전 훈련 프레임워크
객체 지식 기반
실험 결과
시각화 결과
기술 주변기기 일체 포함 새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

Apr 12, 2023 pm 10:16 PM
데이터 발각

오픈 도메인 감지 문제는 인터넷에서 크롤링된 다수의 이미지-텍스트 쌍 또는 업스트림 교육을 위해 수동으로 주석이 달린 데이터의 특정 카테고리를 사용하여 다운스트림 시나리오에서 임의 카테고리 감지를 구현하는 방법에 대한 문제를 나타냅니다. 업계에서 개방형 도메인 감지 방법의 적용에는 주로 자율 주행 시스템의 도로 물체 감지, 클라우드 전체 장면 감지 등이 포함됩니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

논문 주소: https://arxiv.org/abs/2209.09407

이 기사는 NeurIPS 2022에서 선정된 논문 "DetCLIP: Dictionary-Enriched Visual-Concept Paralled Pre-training for Open"을 공유합니다. -world 탐지"에서는 개방형 도메인 탐지 문제를 위해 여러 데이터 소스를 공동으로 결합하기 위한 효율적인 병렬 훈련 프레임워크를 제안하고, 카테고리 간의 암시적 관계를 제공하기 위한 추가 지식 기반을 구축합니다. 동시에 DetCLIP은 Microsoft가 주최한 ECCV2022 OdinW(ObjectDetection in the Wild[1]) 대회에서 평균 감지 지수 24.9%로 제로 샷 감지 트랙에서 1위를 차지했습니다.

문제 소개

인터넷에서 크롤링된 이미지와 텍스트 쌍을 기반으로 훈련된 다중 모달 사전 훈련 모델(예: CLIP)의 인기와 제로샷 분류 분야에서 뛰어난 성능으로 , 점점 더 많은 방법이 이 기능을 개방형 도메인 밀집 예측(예: 임의 범주 감지, 분할 등)으로 전환하려고 시도합니다. 기존 방법은 특징 수준 증류를 위해 사전 학습된 대규모 분류 모델을 사용하거나[1] 의사 라벨링 캡션 및 자체 학습을 통해 학습하는 경우가 많지만[2] 이는 대규모 분류 모델의 성능으로 인해 제한되는 경우가 많습니다. 불완전한 캡션 주석.

기존 SOTA 오픈 도메인 탐지 모델 GLIP[3]은 다양한 데이터 소스의 장점을 최대한 활용하여 탐지 데이터 형식을 Grounding 데이터 형식으로 변환하여 여러 데이터 소스에 대한 공동 학습을 수행합니다. 세트에는 공통 범주에 대한 특별한 요구 사항이 있으며 더 완전한 주석이 있는 반면 Grounding 데이터 세트에는 더 넓은 범위의 범주 커버 간격이 있습니다. 그러나 카테고리 명사를 연결하는 방식은 모델의 전반적인 학습 효율성을 감소시키는 반면, 카테고리 단어를 텍스트 입력으로 직접 사용하는 것은 카테고리 간의 세분화된 선험적 관계를 제공할 수 없음을 발견했습니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 1: 다중 데이터 소스 공동 사전 학습 오픈 도메인 탐지 모델 파이프라인

모델 프레임워크

아래 그림과 같이 ATSS를 기반으로 구축되었습니다[4 ] 단일 단계 감지 모델, DetCLIP 감지 상자의 이미지 특징을 얻기 위한 이미지 인코더 와 카테고리의 텍스트 특징을 얻기 위한 텍스트 인코더 가 포함되어 있습니다. . 그런 다음 위의 이미지 특징과 텍스트 특징을 기반으로 해당 분류 정렬 손실 , 중심점 손실 및 회귀 손실 이 계산됩니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 2: DetCLIP 모델 프레임워크

그림 2의 오른쪽 상단과 왼쪽 상단에 표시된 것처럼 이 기사의 주요 혁신 사항은 1) 여러 데이터 소스 개체 처리 제안 병렬 입력 - 텍스트 통합 훈련 효율성을 최적화하기 위한 훈련 프레임워크 2) 개방형 도메인 탐지 훈련을 지원하기 위한 추가 객체 지식 기반을 구축합니다.

다중 데이터 소스 병렬 입력 사전 훈련 프레임워크

탐지 데이터를 카테고리 명사를 이어붙여 접지 형식(연속)으로 변환하는 GLIP과 비교하여 접지 데이터에서 해당 명사구를 추출하여 탐지와 결합합니다. 카테고리는 독립적인 입력으로 사용되며 불필요한 주의 계산을 피하고 더 높은 훈련 효율성을 달성하기 위해 텍스트 인코더에 (병렬로) 입력됩니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 3: DetCLIP 병렬 입력 사전 훈련 프레임워크와 GLIP

객체 지식 기반

의 비교 다양한 데이터 소스의 범주 공간이 균일하지 않은 문제를 해결하기 위해( 동일한 카테고리 이름이 다르거나 카테고리에 포함 등)을 제공하고 카테고리 간의 관계에 대한 사전 정보를 제공하여 보다 효율적인 학습을 달성하기 위해 객체 지식 기반을 구축합니다.

구성: 감지 데이터의 카테고리, 이미지-텍스트 쌍의 명사구, 해당 정의를 동시에 통합하여 객체 지식 기반을 구축합니다.

사용법: 1. 객체 지식베이스의 정의를 사용하여 기존 탐지 데이터의 카테고리 단어를 확장하여 카테고리 간의 관계에 대한 사전 정보(Concept Enrichment)를 제공합니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 4: 카테고리 단어 정의를 확장하기 위해 객체 지식 베이스를 사용한 예

2. 접지 데이터 및 이미지 캡션 데이터의 불완전한 캡션 주석 문제로 인해(나타남) 사진에서) 카테고리는 캡션에 표시되지 않음), 결과적으로 이러한 이미지를 훈련할 때 네거티브 샘플로 사용할 수 있는 매우 적은 수의 카테고리가 생성되고, 결과적으로 일부 흔하지 않은 카테고리에 대해 모델의 구별이 어려워집니다. 따라서 우리는 희귀 카테고리 특징(+Negative Samples)에 대한 모델의 식별력을 향상시키기 위해 객체 지식 기반에서 객체 명사를 음성 샘플 카테고리로 무작위로 선택합니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 5: 객체 지식 베이스의 카테고리를 네거티브 샘플 카테고리로 도입

3 프레임 주석이 없는 이미지-텍스트 쌍 데이터의 경우 Huawei Noah의 자체 조사 The 모델 FILIP [5]와 사전 훈련된 RPN 레이블을 지정하여 훈련을 위한 일반 접지 데이터로 변환할 수 있습니다. 동시에, 캡션의 그림에 있는 개체의 불완전한 주석 문제를 완화하기 위해 개체 지식 베이스의 모든 카테고리 문구를 의사 라벨링(두 번째 줄)의 후보 카테고리로 사용하고 카테고리만 사용합니다. 캡션(첫 번째 행)의 주석 효과) 비교는 다음과 같습니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 6: 객체 지식 베이스의 카테고리를 허위 라벨링의 후보 카테고리로 도입

실험 결과

다운스트림 LVIS 탐지 데이터 세트(1203개 카테고리)를 사용하여 제안된 방법의 개방형 도메인 탐지 성능을 검증했습니다. swin-t 백본 기반 아키텍처에서 DetCLIP이 9.9% AP 개선을 달성했음을 확인할 수 있습니다. 기존 SOTA 모델 GLIP과 비교하여 Rare 카테고리에서 12.4가 향상되었습니다. 단, GLIP에 비해 데이터 양이 절반도 안 됩니다. 참고로 트레이닝 세트에는 LVIS의 이미지가 포함되어 있지 않습니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

표 1: LVIS에서 다양한 방법의 제로샷 전송 성능 비교

훈련 효율성 측면에서 동일한 32개의 V100 하드웨어 조건을 기준으로 GLIP의 훈련 시간 -T는 -T의 DetCLIP 5배입니다(10.7K GPU 시간 대 2.0K GPU 시간). 테스트 효율성 측면에서는 단일 V100 기준으로 DetCLIP-T의 추론 효율성이 2.3FPS(이미지당 0.4초)로 GLIP-T의 0.12FPS(이미지당 8.6초)보다 20배 높습니다. 또한 DetCLIP의 주요 혁신(병렬 프레임워크 및 개체 지식 기반)이 정확도에 미치는 영향을 별도로 연구했습니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

표 3: LVIS 데이터 세트에 대한 DetCLIP 절제 연구 결과

시각화 결과

아래 그림과 같이 동일한 swin-t 백본을 기반으로 LVIS 데이터 세트에 대한 시각화 특히 희귀 카테고리의 주석과 주석의 완성도에서 GLIP에 비해 효과가 크게 향상되었습니다.

새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상

그림 7: LVIS 데이터세트에 대한 DetCLIP 및 GLIP 예측 결과의 시각적 비교

위 내용은 새로운 개방형 도메인 탐지 방법인 NeurIPS 2022 | 추론 효율성을 20배 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

ddrescue를 사용하여 Linux에서 데이터 복구 ddrescue를 사용하여 Linux에서 데이터 복구 Mar 20, 2024 pm 01:37 PM

DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! 오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

여러 조건으로 Excel 필터 기능을 사용하는 방법 여러 조건으로 Excel 필터 기능을 사용하는 방법 Feb 26, 2024 am 10:19 AM

Excel에서 여러 기준으로 필터링을 사용하는 방법을 알아야 하는 경우 다음 자습서에서는 데이터를 효과적으로 필터링하고 정렬할 수 있는 단계를 안내합니다. Excel의 필터링 기능은 매우 강력하며 많은 양의 데이터에서 필요한 정보를 추출하는 데 도움이 될 수 있습니다. 이 기능을 사용하면 설정한 조건에 따라 데이터를 필터링하고 조건에 맞는 부분만 표시하여 데이터 관리를 더욱 효율적으로 할 수 있습니다. 필터 기능을 사용하면 대상 데이터를 빠르게 찾을 수 있어 데이터 검색 및 정리에 드는 시간을 절약할 수 있습니다. 이 기능은 단순한 데이터 목록에만 적용할 수 있는 것이 아니라, 여러 조건에 따라 필터링하여 필요한 정보를 보다 정확하게 찾을 수 있도록 도와줍니다. 전반적으로 Excel의 필터링 기능은 매우 실용적입니다.

Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Apr 01, 2024 pm 07:46 PM

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 May 03, 2024 pm 09:01 PM

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. 초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. 미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 Mar 11, 2024 pm 12:10 PM

이번 주, 오픈AI(OpenAI), 마이크로소프트(Microsoft), 베조스(Bezos), 엔비디아(Nvidia)가 투자한 로봇 회사인 FigureAI는 약 7억 달러의 자금 조달을 받았으며 내년 내에 독립적으로 걸을 수 있는 휴머노이드 로봇을 개발할 계획이라고 발표했습니다. 그리고 Tesla의 Optimus Prime은 계속해서 좋은 소식을 받았습니다. 올해가 휴머노이드 로봇이 폭발하는 해가 될 것이라는 데는 누구도 의심하지 않는다. 캐나다에 본사를 둔 로봇 회사인 SanctuaryAI는 최근 새로운 휴머노이드 로봇인 Phoenix를 출시했습니다. 관계자들은 이 로봇이 인간과 같은 속도로 자율적으로 많은 작업을 완료할 수 있다고 주장한다. 인간의 속도로 자동으로 작업을 완료할 수 있는 세계 최초의 로봇인 Pheonix는 각 물체를 부드럽게 잡고 움직이며 우아하게 왼쪽과 오른쪽에 배치할 수 있습니다. 자동으로 물체를 식별할 수 있습니다.

See all articles