기술 주변기기 일체 포함 Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

Apr 09, 2023 pm 06:51 PM
기술 표적 탐지

arXiv 논문 "Graph-DETR3D: 다중 뷰 3D 물체 감지를 위한 중첩 영역 재검토", 6월 22일, 중국 과학기술대학교, Harbin Institute of Technology 및 SenseTime의 연구.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

다양한 이미지 뷰에서 3D 개체를 감지하는 것은 시각적 장면 이해에 있어 기본이면서도 어려운 작업입니다. 저렴한 비용과 높은 효율성으로 인해 다중 뷰 3D 물체 감지는 광범위한 응용 가능성을 보여줍니다. 그러나 깊이 정보가 부족하기 때문에 3차원 공간에서 원근법을 통해 물체를 정확하게 감지하는 것은 극히 어렵습니다. 최근 DETR3D는 3D 객체 감지를 위해 다시점 이미지를 집계하기 위한 새로운 3D-2D 쿼리 패러다임을 도입하고 최첨단 성능을 달성합니다.

강력한 안내 실험을 통해 이 논문은 다양한 영역에 위치한 대상을 수량화하고 "잘린 인스턴스"(즉, 각 이미지의 경계 영역)가 DETR3D 성능을 방해하는 주요 병목 현상임을 발견했습니다. 겹치는 영역에서 인접한 두 뷰의 여러 기능을 병합함에도 불구하고 DETR3D는 여전히 기능 집계가 불충분하여 감지 성능을 완전히 향상시킬 수 있는 기회를 놓치고 있습니다.

이 문제를 해결하기 위해 그래프 구조 학습(GSL)을 통해 다시점 이미지 정보를 자동으로 집계하는 Graph-DETR3D가 제안되었습니다. 동적 3D 맵은 각 대상 쿼리와 2D 기능 맵 사이에 구성되어 특히 경계 영역에서 대상 표현을 향상시킵니다. 또한 Graph-DETR3D는 이미지 크기와 대상 깊이를 동시에 확장하여 시각적 깊이 일관성을 유지하는 새로운 깊이 불변 다중 규모 훈련 전략의 이점을 활용합니다.

Graph-DETR3D는 그림에 표시된 것처럼 두 가지 점에서 다릅니다. (1) 동적 그래프 기능의 집계 모듈 (2) 깊이 불변 다중 규모 훈련 전략. 이는 DETR3D의 기본 구조를 따르며 이미지 인코더, 변환기 디코더 및 타겟 예측 헤드의 세 가지 구성 요소로 구성됩니다. 이미지 세트 I = {I1, I2,…,IK}(N개의 페리 뷰 카메라로 캡처)가 주어지면 Graph-DETR3D는 관심 있는 경계 상자의 위치와 범주를 예측하는 것을 목표로 합니다. 먼저 이미지 인코더(ResNet 및 FPN 포함)를 사용하여 이러한 이미지를 상대적으로 L 기능 맵 수준 기능 F의 집합으로 변환합니다. 그런 다음 DGFA(Dynamic Graph Feature Aggregation) 모듈을 통해 2차원 정보를 광범위하게 집계하는 동적 3차원 그래프를 구성하여 대상 쿼리의 표현을 최적화합니다. 마지막으로 향상된 타겟 쿼리를 활용하여 최종 예측을 출력합니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

그림은 DFGA(동적 그래프 특징 집계) 프로세스를 보여줍니다. 먼저 각 대상 쿼리에 대해 학습 가능한 3D 그래프를 구성한 다음 2D 이미지 평면에서 특징을 샘플링합니다. 마지막으로 그래프 연결을 통해 대상 쿼리의 표현이 향상됩니다. 이 상호 연결된 메시지 전파 방식은 그래프 구조 구성 및 기능 향상의 반복적 개선을 지원합니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

다중 규모 훈련은 2D 및 3D 개체 감지 작업에서 일반적으로 사용되는 데이터 증대 전략으로 효과적이고 저렴한 추론으로 입증되었습니다. 그러나 비전 기반의 3D 검사 방법에서는 거의 나타나지 않습니다. 다양한 입력 이미지 크기를 고려하면 모델의 견고성을 향상시키는 동시에 이미지 크기를 조정하고 카메라 내부 매개변수를 수정하여 일반적인 다중 규모 훈련 전략을 구현할 수 있습니다.

흥미로운 현상은 최종 성적이 급격하게 떨어진다는 것입니다. 입력 데이터를 신중하게 분석함으로써 우리는 단순히 이미지 크기를 조정하면 관점 모호성 문제가 발생한다는 것을 발견했습니다. 대상의 크기가 더 크거나 작은 크기로 조정되면 대상의 절대 속성(예: 대상의 크기, 자아까지의 거리) point) 변경하지 마세요.

구체적인 예로 그림은 다음과 같은 모호한 문제를 보여줍니다. (a)와 (b)에서 선택한 영역의 절대 3D 위치는 동일하지만 이미지 픽셀 수가 다릅니다. 깊이 예측 네트워크는 이미지가 차지하는 영역을 기반으로 깊이를 추정하는 경향이 있습니다. 따라서 그림의 이러한 훈련 패턴은 깊이 예측 모델을 혼란스럽게 하고 최종 성능을 더욱 저하시킬 수 있습니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

이를 위해 픽셀 관점에서 깊이를 다시 계산합니다. 알고리즘의 의사 코드는 다음과 같습니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

다음은 디코딩 작업입니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

다시 계산된 픽셀 크기는 다음과 같습니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

스케일 팩터 r = rx = ry를 가정하면 단순화됩니다. 결과는 다음과 같습니다:

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

실험 결과는 다음과 같습니다.

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고

참고: DI = 깊이 불변

위 내용은 Graph-DETR3D: 다중 뷰 3D 객체 감지에서 겹치는 영역에 대한 재고의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! 자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

표적 탐지를 위한 새로운 SOTA: YOLOv9가 출시되고 새로운 아키텍처가 기존 컨볼루션을 다시 구현합니다. 표적 탐지를 위한 새로운 SOTA: YOLOv9가 출시되고 새로운 아키텍처가 기존 컨볼루션을 다시 구현합니다. Feb 23, 2024 pm 12:49 PM

표적 탐지 분야에서 YOLOv9는 새로운 아키텍처와 방법을 채택함으로써 기존 컨볼루션의 매개변수 활용을 효과적으로 향상시켜 이전 세대 제품보다 성능이 훨씬 뛰어납니다. YOLOv8이 2023년 1월에 공식 출시된 지 1년 이상이 지난 후, 마침내 YOLOv9이 출시되었습니다! Joseph Redmon, Ali Farhadi 등이 2015년에 1세대 YOLO 모델을 제안한 이후 표적 탐지 분야의 연구자들은 이를 여러 번 업데이트하고 반복했습니다. YOLO는 이미지의 전역 정보를 기반으로 한 예측 시스템으로, 모델 성능이 지속적으로 향상됩니다. 알고리즘과 기술을 지속적으로 개선함으로써 연구원들은 놀라운 결과를 얻었으며 YOLO는 표적 탐지 작업에서 점점 더 강력해졌습니다.

Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Mar 06, 2024 pm 05:34 PM

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

좌표계 변환을 실제로 마스터하셨나요? 자율주행에 필수불가결한 멀티센서 이슈 좌표계 변환을 실제로 마스터하셨나요? 자율주행에 필수불가결한 멀티센서 이슈 Oct 12, 2023 am 11:21 AM

첫 번째 파일럿 및 주요 기사에서는 주로 자율 주행 기술에서 일반적으로 사용되는 여러 좌표계를 소개하고 이들 간의 상관 관계 및 변환을 완료하고 최종적으로 통합 환경 모델을 구축하는 방법을 소개합니다. 여기서 초점은 차량에서 카메라 강체로의 변환(외부 매개변수), 카메라에서 이미지로의 변환(내부 매개변수), 이미지에서 픽셀 단위로의 변환을 이해하는 것입니다. 3D에서 2D로의 변환에는 해당 왜곡, 변환 등이 포함됩니다. 요점: 차량 좌표계와 카메라 본체 좌표계를 다시 작성해야 합니다. 평면 좌표계와 픽셀 좌표계 난이도: 이미지 평면에서 왜곡 제거와 왜곡 추가를 모두 고려해야 합니다. 2. 소개 좌표계에는 픽셀 평면 좌표계(u, v), 이미지 좌표계(x, y), 카메라 좌표계(), 월드 좌표계() 등 총 4가지 비전 시스템이 있습니다. 각 좌표계 사이에는 관계가 있으며,

정확한 객체 감지를 위한 다중 그리드 중복 경계 상자 주석 정확한 객체 감지를 위한 다중 그리드 중복 경계 상자 주석 Jun 01, 2024 pm 09:46 PM

1. 서론 현재 주요 객체 검출기는 Deep CNN의 용도 변경된 백본 분류기 네트워크를 기반으로 하는 2단계 또는 단일 단계 네트워크입니다. YOLOv3은 입력 이미지를 수신하고 이를 동일한 크기의 그리드 매트릭스로 나누는 잘 알려진 최첨단 단일 스테이지 검출기 중 하나입니다. 표적 중심이 있는 그리드 셀은 특정 표적을 탐지하는 역할을 담당합니다. 오늘 제가 공유하는 것은 정확한 딱 맞는 경계 상자 예측을 달성하기 위해 각 대상에 여러 그리드를 할당하는 새로운 수학적 방법입니다. 연구원들은 또한 표적 탐지를 위한 효과적인 오프라인 복사-붙여넣기 데이터 향상 기능을 제안했습니다. 새로 제안된 방법은 현재의 일부 최첨단 객체 감지기보다 훨씬 뛰어난 성능을 발휘하며 더 나은 성능을 약속합니다. 2. 배경 타겟 탐지 네트워크는 다음을 사용하도록 설계되었습니다.

DualBEV: BEVFormer 및 BEVDet4D를 크게 능가하는 책을 펼치세요! DualBEV: BEVFormer 및 BEVDet4D를 크게 능가하는 책을 펼치세요! Mar 21, 2024 pm 05:21 PM

본 논문에서는 자율 주행에서 다양한 시야각(예: 원근 및 조감도)에서 객체를 정확하게 감지하는 문제, 특히 원근(PV) 공간에서 조감(BEV) 공간으로 기능을 효과적으로 변환하는 방법을 탐구합니다. VT(Visual Transformation) 모듈을 통해 구현됩니다. 기존 방법은 크게 2D에서 3D로, 3D에서 2D로 변환하는 두 가지 전략으로 나뉩니다. 2D에서 3D로의 방법은 깊이 확률을 예측하여 조밀한 2D 특징을 개선하지만, 특히 먼 영역에서는 깊이 예측의 본질적인 불확실성으로 인해 부정확성이 발생할 수 있습니다. 3D에서 2D로의 방법은 일반적으로 3D 쿼리를 사용하여 2D 기능을 샘플링하고 Transformer를 통해 3D와 2D 기능 간의 대응에 대한 주의 가중치를 학습하므로 계산 및 배포 시간이 늘어납니다.

최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 | 최초의 멀티뷰 자율주행 장면 영상 생성 세계 모델 DrivingDiffusion: BEV 데이터 및 시뮬레이션을 위한 새로운 아이디어 | Oct 23, 2023 am 11:13 AM

저자 개인 생각 중 일부 자율주행 분야에서는 BEV 기반의 하위 작업/End-to-End 솔루션 개발로 인해 고품질의 다시점 훈련 데이터와 그에 따른 시뮬레이션 장면 구축이 점점 더 중요해지고 있습니다. 현재 작업의 문제점에 대응하여 "고품질"은 세 가지 측면으로 분리될 수 있습니다. 다양한 차원의 롱테일 시나리오(예: 장애물 데이터의 근거리 차량 및 자동차 절단 과정의 정확한 방향 각도) 곡률이 다른 곡선이나 경사로/병합/병합 등 캡처하기 어려운 차선 데이터. 이는 종종 비용이 많이 드는 대량의 데이터 수집과 복잡한 데이터 마이닝 전략에 의존합니다. 3D 진정한 가치 - 매우 일관된 이미지: 현재 BEV 데이터 수집은 센서 설치/보정, 고정밀 지도 및 재구성 알고리즘 자체의 오류에 의해 영향을 받는 경우가 많습니다. 이것이 나를 이끌었다

GSLAM | 일반적인 SLAM 아키텍처 및 벤치마크 GSLAM | 일반적인 SLAM 아키텍처 및 벤치마크 Oct 20, 2023 am 11:37 AM

갑자기 발견한 19년 된 논문 GSLAM: A General SLAM Framework and Benchmark 오픈소스 코드: https://github.com/zdzhaoyong/GSLAM 전문으로 직접 가서 이 작품의 퀄리티를 느껴보세요~1 Abstract SLAM technology 최근 많은 성공을 거두었으며 많은 첨단 기술 기업의 관심을 끌었습니다. 그러나 기존 또는 신흥 알고리즘에 대한 인터페이스를 사용하여 속도, 견고성 및 이식성에 대한 벤치마크를 효과적으로 수행하는 방법은 여전히 ​​문제로 남아 있습니다. 본 논문에서는 평가 기능을 제공할 뿐만 아니라 연구자에게 자체 SLAM 시스템을 신속하게 개발할 수 있는 유용한 방법을 제공하는 GSLAM이라는 새로운 SLAM 플랫폼을 제안합니다.

See all articles