목차
제목 아이디어:
네트워크 설계:
실험 결과:
요약:
인용:
기술 주변기기 일체 포함 FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

Nov 28, 2023 am 11:21 AM
3d 자율주행

원제: FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유 예측

논문 링크: https://arxiv.org/pdf/2311.12058.pdf

저자 소속: Dalian University of Technology Houmo AI Ade Rider University

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

제목 아이디어:

탑승 예측은 3D 객체 감지에서 흔히 발생하는 롱테일 결함과 복잡한 형상 누락을 완화하는 기능으로 인해 자율 주행 시스템의 핵심 구성 요소가 되었습니다. 그러나 3차원 복셀 수준 표현을 처리하면 필연적으로 메모리 및 계산 측면에서 상당한 오버헤드가 발생하여 현재까지 점유 예측 방법의 배포를 방해합니다. 모델을 더 크고 복잡하게 만드는 추세와는 반대로, 이 문서에서는 이상적인 프레임워크는 높은 정확도를 유지하면서 다양한 칩에 걸쳐 배포하기 쉬워야 한다고 주장합니다. 이를 위해 본 논문에서는 높은 정확도를 유지하면서 빠르고 메모리 효율적인 점유 예측을 통합하는 플러그 앤 플레이 패러다임인 FlashOCC를 제안합니다. 특히, 우리의 FlashOCC는 최신 복셀 수준 점유 예측 방법을 기반으로 두 가지 개선 사항을 적용했습니다. 첫째, 특징은 BEV에 보존되어 특징 추출을 위해 효율적인 2D 컨벌루션 레이어를 사용할 수 있습니다. 둘째, BEV의 출력 로짓을 3D 공간으로 촉진하기 위해 채널에서 높이로의 변환이 도입되었습니다. 이 문서에서는 까다로운 Occ3D-nuScenes 벤치마크의 다양한 점유 예측 기준에 FlashOCC를 적용하고 그 효과를 검증하기 위해 광범위한 실험을 수행합니다. 결과는 우리의 플러그 앤 플레이 패러다임이 정확성, 런타임 효율성 및 메모리 비용 측면에서 이전의 최첨단 방법보다 성능이 우수하다는 것을 확인하여 배포 잠재력을 보여줍니다. 코드를 사용할 수 있습니다.

네트워크 설계:

하위 픽셀 컨볼루션 기술[26]에서 영감을 받아 이미지 업샘플링을 채널 재배열로 대체하여 채널 간 기능 변환을 달성합니다. 본 연구에서는 채널에서 높이로의 특징 변환을 효율적으로 달성하는 것을 목표로 합니다. BEV 표현의 각 픽셀에 높이 차원의 해당 기둥형 객체에 대한 정보가 포함된 BEV 인식 작업의 개발을 고려하여 직관적으로 채널-높이 변환을 활용하여 BEV 기능을 3D 복셀 수준 점유 로짓으로 평면화합니다. . 따라서 우리의 연구는 그림 1(a)에 표시된 것처럼 새로운 모델 아키텍처를 개발하기보다는 일반 및 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 둡니다. 구체적으로, 우리는 현대 방법에서 3D 컨볼루션 대신 2D 컨볼루션을 직접 사용하고, 3D 컨볼루션 출력에서 ​​파생된 점유 로짓을 2D 컨볼루션을 통해 얻은 BEV 수준 특징의 채널-높이 변환으로 대체합니다. 이 모델은 정확도와 시간 소모 사이에서 최상의 절충점을 달성할 뿐만 아니라 뛰어난 배포 호환성을 보여줍니다.

FlashOcc는 매우 높은 정확도로 실시간 둘러보기 3D 점유 예측을 성공적으로 완료하여 이 분야에서 최고의 획기적인 기여를 했습니다. 또한 뷰 변환기 또는 3D(변형 가능) 컨볼루션 연산자를 피할 수 있는 값비싼 복셀 수준 기능 처리가 필요하지 않으므로 다양한 차량 플랫폼에 배포할 수 있는 향상된 다양성을 보여줍니다. 그림 2에서 볼 수 있듯이 FlashOcc의 입력 데이터는 서라운드 이미지로 구성되어 있으며 출력은 조밀한 점유 예측 결과입니다. 이 기사의 FlashOcc는 다양한 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 두고 있지만 여전히 5가지 기본 모듈로 나눌 수 있습니다. (1) 다중 카메라 이미지에서 이미지 특징을 추출하는 2D 이미지 인코더. (2) 2D 지각 뷰 이미지 특징을 3D BEV 표현으로 매핑하는 데 도움이 되는 뷰 변환 모듈입니다. (3) BEV 특징 정보 처리를 담당하는 BEV 인코더. (4) 예측 모듈을 점유하여 각 복셀의 분할 라벨을 예측합니다. (5) 성능 향상을 위해 과거 정보를 통합하도록 설계된 선택적 시간 융합 모듈입니다.

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

그림 1.(a)는 제안된 FlashOcc를 플러그 앤 플레이 방식으로 구현하는 방법을 보여줍니다. 현대적인 방법은 3D-Conv로 처리된 복셀 수준의 3D 기능을 사용하여 점유율을 예측합니다. 대조적으로, 우리의 플러그인 대체 ​​모델은 (1) 3D-Conv를 2D-Conv로 대체하고 (2) 3D-Conv에서 파생된 점유 로짓을 빠르고 메모리 효율적인 채널 변환으로 대체하여 구현됩니다. 2D-Conv를 통해 얻은 BEV 수준 특징의 점유 예측. "Conv"라는 약어는 컨볼루션(Convolution)을 의미합니다. (b)는 정확성과 속도, 추론 메모리 소비, 훈련 기간과 같은 요인 간의 균형을 보여줍니다.

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

그림 2. 이 그림은 FlashOcc의 전체 아키텍처를 보여주며 확대/축소 기능이 있는 컬러로 가장 잘 보입니다. 점선 상자로 지정된 영역은 교체 가능한 모듈이 있음을 나타냅니다. 교체 가능한 각 모듈의 형상은 각각 2D 이미지, BEV 수준, 복셀 수준 기능을 나타내는 아이콘으로 표시됩니다. 연한 파란색 영역은 선택적 시간 융합 모듈에 해당하며, 이 모듈의 사용은 빨간색 스위치의 활성화에 따라 달라집니다.

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

그림 4는 3D 복셀 수준 표현 처리와 본 기사에서 제안한 플러그인 대체 ​​간의 아키텍처 비교를 보여줍니다.

실험 결과:

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

요약:

이 기사에서는 빠르고 메모리 효율적인 점유 예측을 달성하도록 설계된 FlashOCC라는 플러그 앤 플레이 방법을 소개합니다. 이 방법은 2D 컨볼루션을 사용하여 복셀 기반 점유 방법의 3D 컨볼루션을 직접 대체하고 채널-높이 변환을 결합하여 평면화된 BEV 기능을 점유 로짓으로 재구성합니다. FlashOCC는 다양한 복셀 수준 점유 예측 방법 전반에 걸쳐 효율성과 다양성을 입증했습니다. 광범위한 실험을 통해 이 방법이 정확성, 시간 소비, 메모리 효율성 및 배포 친화성 측면에서 이전의 최첨단 방법보다 뛰어난 것으로 나타났습니다. 우리가 아는 한, FlashOCC는 점유 작업에 하위 픽셀 패러다임(채널-높이)을 적용하는 첫 번째 방법입니다. 특히 BEV 수준 기능을 활용하고 계산 3D(변형 가능) 컨벌루션 또는 변환기의 사용을 완전히 피합니다. 모듈. 시각화 결과는 FlashOCC가 높이 정보를 성공적으로 유지한다는 것을 확실하게 보여줍니다. 향후 작업에서 이 방법은 효율적인 온칩 배포를 목표로 자율 주행의 인식 파이프라인에 통합될 것입니다.

인용:

Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023) FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유율 예측. . /abs/2311.12058

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

원본링크 : https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ

위 내용은 FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? 자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? Jan 17, 2024 pm 02:57 PM

위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? 자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 Jan 26, 2024 am 11:18 AM

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 ​​포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다. CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다. Mar 26, 2024 pm 12:41 PM

위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! 자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요? 엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요? Apr 15, 2024 pm 04:13 PM

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아

SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 Feb 20, 2024 am 11:48 AM

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

See all articles