AAAI2024: Far3D - 150m 시각적 3D 표적 탐지에 직접 도달하는 혁신적인 아이디어
최근 Arxiv에서 순수 시각적 서라운드 인식에 관한 최신 연구를 읽었습니다. 이 연구는 PETR 시리즈 방법을 기반으로 하며 장거리 표적 감지의 순수 시각적 인식 문제를 해결하는 데 중점을 두고 인식 범위를 150미터로 확장합니다. 본 논문의 방법과 결과는 우리에게 큰 참고가치가 있어 해석해 보았습니다
원제: Far3D: Expanding the Horizon for Surround-view 3D ObjectDetection
논문 링크: https:/ /arxiv.org/abs /2308.09616
저자 소속 : 베이징 공과 대학 & 메그비 기술
과제 배경
3차원 물체 감지는 자율 주행의 3차원 장면을 이해하는 데 중요한 역할을 하며, 그 목적은 차량 주변의 물체를 찾아 분류합니다. 순수한 시각적 서라운드 인식 방법은 비용이 저렴하고 적용 범위가 넓다는 장점이 있으며 상당한 발전을 이루었습니다. 그러나 대부분은 단거리 감지(예: NuScene의 감지 거리가 약 50미터)에 중점을 두고 있으며 장거리 감지 분야는 덜 연구되어 있습니다. 실제 주행 중, 특히 고속 주행이나 복잡한 도로 상황에서 안전 거리를 유지하려면 멀리 있는 물체를 감지하는 것이 중요합니다.
최근 배포 비용이 저렴한 서라운드 뷰 이미지의 3D 객체 감지 분야에서 상당한 진전이 있었습니다. 그러나 대부분의 연구는 주로 근거리 감지 범위에 초점을 맞추고 있으며 장거리 감지에 대한 연구는 적습니다. 장거리를 커버하기 위해 기존 방법을 직접 확장하는 것은 높은 계산 비용과 불안정한 수렴과 같은 문제에 직면하게 됩니다. 이러한 한계를 해결하기 위해 본 논문에서는 Far3D라는 새로운 희소 쿼리 기반 프레임워크를 제안합니다.
논문 아이디어
중간 표현에 따르면 기존의 Look Around Sensing 방법은 크게 BEV 표현 기반 방법과 Sparse 쿼리 표현 기반 방법 두 가지로 나눌 수 있습니다. BEV 표현 기반 방법은 BEV 특성에 대한 집중적인 계산이 필요하기 때문에 매우 많은 양의 계산이 필요하므로 장거리 시나리오로 확장하기가 어렵습니다. 희소 쿼리 표현 기반 방법은 훈련 데이터로부터 전역 3D 쿼리를 학습하게 되며 계산량이 상대적으로 적고 확장성이 뛰어납니다. 그러나 몇 가지 약점도 있습니다. 쿼리 수의 제곱 증가를 피할 수는 있지만 전역 고정 쿼리는 동적 장면에 적응하기가 쉽지 않으며 장거리 탐지에서 대상을 놓치는 경우가 많습니다. 데이터 세트, 탐지와 2D 탐지 간의 3D 성능 비교.
장거리 탐지에서 희소 쿼리 표현을 기반으로 하는 방법에는 두 가지 주요 과제가 있습니다.
첫 번째는 부진한 리콜 성능입니다. 3D 공간에서 쿼리가 희박하게 분포되어 있기 때문에 장거리 범위에서는 소수의 일치하는 긍정적 쿼리만 생성될 수 있습니다. 위 그림에서 볼 수 있듯이 3D 감지의 재현율은 낮은 반면, 기존 2D 감지의 재현율은 훨씬 높기 때문에 둘 사이에는 분명한 성능 차이가 있습니다. 따라서 3D 쿼리를 개선하기 위해 사전에 고품질 2D 객체를 활용하는 것은 유망한 방법이며, 이는 객체의 정확한 위치 지정과 포괄적인 범위를 달성하는 데 도움이 됩니다.
둘째, 3D 감지를 돕기 위해 2D 감지 결과를 직접 도입하면 오류 전파 문제에 직면하게 됩니다. 아래 그림에 표시된 것처럼 두 가지 주요 원인은 1) 부정확한 깊이 예측으로 인한 객체 위치 지정 오류, 2) 절두체 변환의 3D 위치 오류가 거리에 따라 증가합니다. 이러한 시끄러운 쿼리는 훈련의 안정성에 영향을 미치며 최적화하려면 효과적인 잡음 제거 방법이 필요합니다. 또한 훈련 중에 모델은 밀도가 높고 가까운 개체에 과적합되는 경향이 있고, 드물게 분산된 먼 개체는 무시합니다.
- 위에서 언급한 문제를 해결하기 위해 이 기사에서는 다음과 같은 설계 계획을 채택합니다.
- 데이터 세트에서 학습한 3D 전역 쿼리 외에도 2D 감지 결과에서 생성된 3D 적응형 쿼리도 도입됩니다. 구체적으로, 2차원 검출기와 깊이 예측 네트워크를 먼저 사용하여 2차원 상자와 해당 깊이를 얻은 후 3차원 적응형 쿼리의 초기화로 공간 변환을 통해 3차원 공간에 투영합니다.
- 다양한 거리에 있는 다양한 크기의 물체에 적응하기 위해 관점 인식 집계가 설계되었습니다. 이를 통해 3D 쿼리가 다양한 규모의 특징과 상호 작용할 수 있으므로 다양한 거리에 있는 객체의 특징을 캡처하는 데 유용합니다. 예를 들어, 멀리 있는 물체에는 고해상도 기능이 필요하고 가까운 물체에는 다른 기능이 필요합니다. 이 설계를 통해 모델은 기능과 적응적으로 상호 작용할 수 있습니다.
- 쿼리 오류 전파 및 느린 수렴 문제를 완화하기 위해 범위 변조 3D 노이즈 제거라는 전략을 설계했습니다. 거리에 따라 쿼리 회귀 난이도가 다르다는 점을 고려하여 시끄러운 쿼리는 실제 상자의 거리와 크기에 따라 조정됩니다. GT 근처의 여러 세트의 잡음이 있는 쿼리를 디코더에 입력하여 3D 실제 상자(양성 샘플의 경우)를 재구성하고 음수 샘플을 각각 폐기합니다.
주요 기여
- 본 논문에서는 3차원 적응 질의를 생성하기 전에 고품질의 2차원 객체를 사용하여 3차원 검출의 인식 범위를 확장하는 새로운 희소 질의 기반 검출 프레임워크를 제안합니다.
- 이 기사에서는 쿼리 오류 전파 및 프레임워크 수렴 문제를 해결하기 위해 다양한 규모와 관점에서 시각적 특징을 집계하는 관점 인식 집계 모듈과 대상 거리를 기반으로 하는 3D 노이즈 제거 전략을 설계합니다.
- 장거리 Argoverse 2 데이터 세트에 대한 실험 결과에 따르면 Far3D는 이전의 둘러보기 방법을 능가하고 여러 LiDAR 기반 방법보다 성능이 뛰어납니다. 그리고 그 일반성은 nuScenes 데이터세트에서 검증되었습니다.
모델 디자인
Far3D 프로세스 개요:
- 서라운드 이미지를 백본 네트워크 및 FPN 레이어에 입력하고 2D 이미지 기능을 인코딩한 후 카메라 매개변수로 인코딩합니다.
- 2D 감지기와 깊이 예측 네트워크를 활용하여 신뢰할 수 있는 2D 개체 상자와 해당 깊이를 생성한 다음 카메라 변환을 통해 3D 공간에 투영합니다.
- 생성된 3D 적응형 쿼리는 초기 3D 전역 쿼리와 결합되고 디코더 레이어에 의해 반복적으로 회귀되어 3D 개체 상자를 예측합니다. 또한 모델은 장기적인 쿼리 전파를 통해 시계열 모델링을 구현할 수 있습니다.
관점 인식 집계:
장거리 탐지 모델에 다중 규모 기능을 도입하기 위해 이 기사에서는 3D 공간 변형 주의를 적용합니다. 먼저 쿼리에 해당하는 3D 위치 근처에서 오프셋 샘플링을 수행한 다음 3D-2D 뷰 변환을 통해 이미지 특징을 집계합니다. PETR 시리즈의 세계적인 관심 대신 이 방법의 장점은 계산 복잡성을 크게 줄일 수 있다는 것입니다. 특히 3D 공간의 각 쿼리 참조점에 대해 모델은 주변의 M 샘플링 오프셋을 학습하고 이러한 오프셋 점을 다양한 2D 보기 기능에 투영합니다.
이어서 3D 쿼리는 투영을 통해 얻은 샘플링된 특징과 상호 작용합니다. 이러한 방식으로 서로 다른 관점과 규모의 다양한 기능이 상대적 중요성을 고려하여 3차원 쿼리로 통합됩니다.
범위 변조 3D 노이즈 제거:
거리가 다른 3D 쿼리는 회귀 난이도가 다르며 이는 기존 2D 노이즈 제거 방법(예: 일반적으로 동일하게 처리되는 DN-DETR, 2D 쿼리)과 다릅니다. 난이도의 차이는 쿼리 일치 밀도와 오류 전파에서 비롯됩니다. 한편, 멀리 있는 객체에 해당하는 질의 일치 정도는 가까운 객체에 비해 낮습니다. 반면, 3D 적응형 쿼리에 2D 사전을 도입하면 2D 개체 상자의 작은 오류가 증폭되며, 개체 거리가 멀어짐에 따라 이 효과도 커집니다. 따라서 GT 박스 근처의 일부 질의는 긍정적인 질의로 간주될 수 있고, 명백한 편차가 있는 다른 질의는 부정적인 질의로 간주되어야 합니다. 본 논문에서는 이러한 Positive 샘플을 최적화하고 Negative 샘플을 직접 폐기하는 것을 목표로 하는 3D Denoising 방법을 제안합니다.
구체적으로 저자는 양성 샘플과 음성 샘플 그룹을 동시에 추가하여 GT 기반 시끄러운 쿼리를 구축합니다. 두 유형 모두 장거리 인식에서 잡음 제거 학습을 용이하게 하기 위해 객체의 위치와 크기에 따라 무작위 잡음이 적용됩니다. 구체적으로, 포지티브 샘플은 3D 상자 내의 임의 지점인 반면, 네거티브 샘플은 GT에 더 큰 오프셋을 부과하고 오프셋 범위는 객체의 거리에 따라 변경됩니다. 이 방법은 훈련 중에 시끄러운 후보 양성 및 위양성 샘플을 시뮬레이션할 수 있습니다.
실험 결과
Far3D는 감지 범위 150m로 Argoverse 2에서 가장 높은 성능을 달성했습니다. 그리고 모델이 확장된 후에는 여러 Lidar 기반 방법의 성능을 달성하여 순수한 시각적 방법의 잠재력을 입증할 수 있습니다.
일반화 성능을 검증하기 위해 저자는 nuScenes 데이터 세트에 대한 실험도 수행했으며 검증 세트와 테스트 세트 모두에서 SoTA 성능을 달성했음을 보여주었습니다.
절제 실험 후 우리는 다음과 같은 결론에 도달했습니다. 3D 적응형 쿼리, 관점 인식 집계 및 범위 조정 3D 노이즈 감소는 각각 일정한 이득을 얻습니다
논문에 대한 생각
Q : 이 기사의 참신함은 무엇입니까?
A: 주요 참신함은 장거리 장면에 대한 인식 문제를 해결하는 것입니다. 기존 방법을 장거리 시나리오로 확장하는 데에는 계산 비용과 수렴의 어려움을 포함하여 많은 문제가 있습니다. 본 논문의 저자는 이 작업을 위한 효율적인 프레임워크를 제안합니다. 개별 모듈은 친숙해 보일 수 있지만 모두 멀리 있는 표적을 탐지하는 역할을 하며 명확한 목표를 가지고 있습니다.
Q: BevFormer v2와 비교했을 때 MV2D의 차이점은 무엇인가요?
A: MV2D는 3D를 바인딩하기 위해 해당 기능을 얻기 위해 주로 2D 앵커에 의존하지만 명시적인 깊이 추정이 없으므로 먼 물체에 대한 불확실성이 상대적으로 크고 BevFormer v2는 주로 수렴하기 어려울 것입니다. 일반적으로 2D 인식 작업에 대해 사전 훈련된 백본은 3D 장면을 감지하는 능력이 부족하여 장거리 작업의 문제를 탐색하지 않습니다.
Q: 쿼리 전파와 기능 전파 등 타이밍을 개선할 수 있나요?
A: 이론상으로는 가능하지만 실제 적용에서는 성능과 효율성의 균형을 고려해야 합니다.
Q: 개선이 필요한 부분이 있나요?
A: 롱테일 이슈와 장거리 평가 지표 모두 개선할 가치가 있습니다. Argoverse 2와 같은 26개 클래스 대상에서는 모델이 롱테일 클래스에서 잘 수행되지 않으며 궁극적으로 아직 탐색되지 않은 평균 정확도가 감소합니다. 반면, 통합 측정항목을 사용하여 멀리 있거나 가까운 물체를 평가하는 것은 적절하지 않을 수 있으며, 이는 현실 세계의 다양한 시나리오에 적용할 수 있는 실용적인 동적 평가 기준의 필요성을 강조합니다.
원본 링크: https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg
위 내용은 AAAI2024: Far3D - 150m 시각적 3D 표적 탐지에 직접 도달하는 혁신적인 아이디어의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











i77700의 성능은 win11을 실행하기에 충분하지만 사용자는 i77700을 win11로 업그레이드할 수 없다는 것을 알게 됩니다. 이는 주로 Microsoft에서 부과한 제한 사항 때문이므로 이 제한 사항을 건너뛰는 한 설치할 수 있습니다. i77700은 win11로 업그레이드할 수 없습니다. 1. Microsoft에서는 CPU 버전을 제한하기 때문입니다. 2. Intel의 8세대 이상 버전만 win11로 직접 업그레이드할 수 있습니다. 3. 7세대인 i77700은 win11의 업그레이드 요구 사항을 충족할 수 없습니다. 4. 하지만 i77700은 성능면에서 win11을 완벽하게 원활하게 사용할 수 있습니다. 5. 따라서 이 사이트의 win11 직접 설치 시스템을 사용할 수 있습니다. 6. 다운로드가 완료되면 파일을 마우스 오른쪽 버튼으로 클릭하고 "로드"합니다. 7. 더블클릭하여 "원클릭"을 실행합니다.

여러분, 안녕하세요. 오늘 저는 넘어짐 감지 프로젝트를 여러분과 공유하고 싶습니다. 정확하게는 골격점을 기반으로 한 인간의 움직임 인식입니다. 이는 대략 3단계로 나뉩니다: 인체 인식, 인체 골격 지점 동작 분류 프로젝트 소스 코드가 패키지되어 있습니다. 획득 방법은 기사 끝부분을 참조하세요. 0. chatgpt 먼저 모니터링되는 비디오 스트림을 가져와야 합니다. 이 코드는 상대적으로 고정되어 있습니다. chatgpt가 작성한 코드를 chatgpt가 직접 완성하도록 할 수 있으며 문제가 없으며 직접 사용할 수 있습니다. 그러나 나중에 mediapipe를 사용하여 인간의 뼈대 지점을 식별하는 등의 비즈니스 작업에 관해서는 chatgpt에서 제공하는 코드가 올바르지 않습니다. 나는 chatgpt를 비즈니스 로직과 독립적인 도구 상자로 사용할 수 있다고 생각합니다. 이를 C에 넘겨볼 수 있습니다.

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

1 소개 NeRF(Neural Radiation Fields)는 딥 러닝 및 컴퓨터 비전 분야의 상당히 새로운 패러다임입니다. 이 기술은 ECCV2020 논문 "NeRF: Representing Scenes as Neural Radiation Fields for View Synesis"(Best Paper Award 수상)에 소개되었으며 이후 현재까지 거의 800회 인용될 정도로 인기가 높아졌습니다[1]. 이 접근 방식은 기계 학습이 3D 데이터를 처리하는 기존 방식에 큰 변화를 가져옵니다. 신경 방사선장 장면 표현 및 미분 가능한 렌더링 프로세스: 카메라 광선을 따라 5D 좌표(위치 및 시야 방향)를 샘플링하여 이미지를 합성하고 이러한 위치를 MLP에 공급하여 색상 및 체적 밀도를 생성하고 체적 렌더링 기술을 사용하여 이러한 값을 합성합니다. ; 렌더링 함수는 미분 가능하므로 전달될 수 있습니다.

오늘은 지난 주 MIT에서 발표한 기사를 소개하고자 합니다. GPT-3.5-turbo를 사용하여 시계열 이상 탐지 문제를 해결하고, 시계열 이상 탐지에서 LLM의 효율성을 초기에 검증한 내용입니다. 전체 과정에 미세한 조정은 없으며, 이상 탐지를 위해 GPT-3.5-turbo를 직접 사용하는 것이 이 글의 핵심이다. LLM이 이상 탐지 작업을 해결하도록 하는 프롬프트 또는 파이프라인입니다. 이 작품을 자세히 소개하겠습니다. 이미지 논문 제목: Large Languagemodelscanbezero-shotanomalydete

01 전망 요약 현재로서는 탐지 효율성과 탐지 결과 간의 적절한 균형을 이루기가 어렵습니다. 우리는 광학 원격 탐사 이미지에서 표적 감지 네트워크의 효과를 향상시키기 위해 다층 특징 피라미드, 다중 감지 헤드 전략 및 하이브리드 주의 모듈을 사용하여 고해상도 광학 원격 감지 이미지에서 표적 감지를 위한 향상된 YOLOv5 알고리즘을 개발했습니다. SIMD 데이터 세트에 따르면 새로운 알고리즘의 mAP는 YOLOv5보다 2.2%, YOLOX보다 8.48% 우수하여 탐지 결과와 속도 간의 균형이 더 잘 이루어졌습니다. 02 배경 및 동기 원격탐사 기술의 급속한 발전으로 항공기, 자동차, 건물 등 지구 표면의 많은 물체를 묘사하기 위해 고해상도 광학 원격탐사 영상이 활용되고 있다. 원격탐사 이미지 해석에서 물체 감지

순수한 시각적 주석 솔루션은 주로 비전과 동적 주석을 위한 GPS, IMU 및 휠 속도 센서의 일부 데이터를 사용합니다. 물론 대량 생산 시나리오의 경우 순수 비전일 필요는 없습니다. 일부 대량 생산 차량에는 고체 레이더(AT128)와 같은 센서가 장착됩니다. 대량 생산 관점에서 데이터 폐쇄 루프를 만들고 이러한 센서를 모두 사용하면 동적 개체에 라벨을 붙이는 문제를 효과적으로 해결할 수 있습니다. 그러나 우리 계획에는 고체 레이더가 없습니다. 따라서 가장 일반적인 대량 생산 라벨링 솔루션을 소개하겠습니다. 순수한 시각적 주석 솔루션의 핵심은 고정밀 포즈 재구성에 있습니다. 재구성 정확도를 보장하기 위해 SFM(Structure from Motion)의 포즈 재구성 방식을 사용합니다. 하지만 통과

위 작성 및 저자 개인적 이해 최근 자율주행은 운전자의 부담을 줄이고 운전 안전성을 높일 수 있다는 점에서 주목을 받고 있다. 비전 기반 3차원 점유 예측은 자율 주행 안전에 대한 비용 효율적이고 포괄적인 조사에 적합한 새로운 인식 작업입니다. 많은 연구에서 객체 중심 인식 작업에 비해 3D 점유 예측 도구의 우수성을 입증했지만, 빠르게 발전하는 이 분야에 대한 리뷰는 여전히 남아 있습니다. 본 논문에서는 먼저 비전 기반 3D 점유 예측의 배경을 소개하고 이 작업에서 직면하는 과제에 대해 논의합니다. 다음으로, 기능 향상, 배포 친화성, 라벨링 효율성이라는 세 가지 측면에서 현재 3D 점유 예측 방법의 현황과 개발 동향을 종합적으로 논의합니다. 마침내
