SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion-일체 포함-php.cn

RoboFusion 네트워크 구조

실험적 비교

집

기술 주변기기

일체 포함

SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 16, 2024 pm 02:03 PM

액자 3d

논문 링크: https://arxiv.org/pdf/2401.03907.pdf

Multi-modal 3D detector는 안전하고 신뢰할 수 있는 자율주행 인식 시스템을 연구하기 위해 설계되었습니다. 깨끗한 벤치마크 데이터 세트에서 최첨단 성능을 달성하지만 실제 환경의 복잡성과 가혹한 조건은 종종 무시됩니다. 동시에 VFM(Vision Foundation Model)의 출현으로 다중 모드 3D 감지의 견고성과 일반화 기능을 향상시키는 것은 자율 주행에서 기회와 과제에 직면해 있습니다. 따라서 저자는 SAM과 같은 VFM을 활용하여 OOD(배포 외) 소음 시나리오를 해결하는 RoboFusion 프레임워크를 제안합니다.

먼저 SAM-AD라는 자율주행 시나리오에 원본 SAM을 적용합니다. SAM 또는 SAMAD를 다중 모달 방법과 정렬하기 위해 AD-FPN을 도입하여 SAM에서 추출한 이미지 특징을 업샘플링합니다. 소음과 기상 간섭을 더욱 줄이기 위해 웨이블릿 분해를 사용하여 깊이 안내 이미지의 소음을 제거합니다. 마지막으로, 과도한 노이즈를 억제하면서 유익한 기능을 향상시키기 위해 융합된 기능에 적응적으로 가중치를 다시 부여하는 self-attention 메커니즘을 사용합니다. RoboFusion은 VFM의 일반화와 견고성을 활용하여 점차적으로 소음을 줄여 다중 모드 3D 객체 감지의 탄력성을 향상시킵니다. 결과적으로 RoboFusion은 KITTIC 및 nuScenes-C 벤치마크 결과에 따라 시끄러운 장면에서 최첨단 성능을 달성합니다.

이 논문에서는 SAM과 같은 VFM을 활용하여 깨끗한 장면에서 OOD 시끄러운 장면에 이르기까지 3D 다중 모드 객체 감지기를 적용하는 RoboFusion이라는 강력한 프레임워크를 제안합니다. 그 중에서도 SAM의 적응 전략이 핵심이다.

1) 분할 결과를 추론하는 대신 SAM에서 추출된 특징을 사용합니다.

2) AD 시나리오를 위해 사전 훈련된 SAM인 SAM-AD가 제안되었습니다.

3) VFM을 다중 모드 3D 검출기와 정렬하기 위한 특징 업샘플링 문제를 해결하기 위해 새로운 AD-FPN이 도입되었습니다.

잡음 간섭을 줄이고 신호 특성을 유지하기 위해 DGWA(Deep Guided Wavelet Attention) 모듈이 도입되어 고주파 및 저주파 잡음을 효과적으로 감쇠합니다.

포인트 클라우드 기능과 이미지 기능을 융합한 후 적응형 융합을 통해 기능의 가중치를 다시 조정하여 기능의 견고성과 노이즈 저항성을 향상합니다.

RoboFusion 네트워크 구조

RoboFusion 프레임워크는 아래에 나와 있으며, 해당 LiDAR 분기는 기준선 [Chen et al., 2022; Bai et al., 2022]을 따라 LiDAR 기능을 생성합니다. 카메라 부문에서는 고도로 최적화된 SAM-AD 알고리즘을 먼저 사용하여 강력한 이미지 특징을 추출하고 AD-FPN과 결합하여 다중 규모 특징을 얻습니다. 다음으로, 원본 포인트를 사용하여 희소 깊이 맵(S)을 생성하고, 이를 깊이 인코더에 입력하여 깊이 특징을 얻고, 멀티스케일 영상 특징과 융합하여 깊이 유도 영상 특징을 얻습니다. 그런 다음 변동 주의 메커니즘을 통해 돌연변이 노이즈가 제거됩니다. 마지막으로, 적응형 융합은 포인트 클라우드 기능과 깊이 정보가 있는 강력한 이미지 기능을 결합하는 Self-Attention 메커니즘을 통해 달성됩니다.

SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion

SAM-AD: SAM을 AD(자율 주행) 시나리오에 추가로 적용하기 위해 SAM은 SAM-AD를 획득하도록 사전 훈련됩니다. 구체적으로, 성숙한 데이터 세트(예: KITTI 및 nuScenes)에서 다수의 이미지 샘플을 수집하여 기본 AD 데이터 세트를 구성합니다. DMAE 이후 SAM은 그림 3과 같이 AD 시나리오에서 SAM-AD를 얻도록 사전 훈련됩니다. x를 AD 데이터 세트(예: KITTI 및 nuScenes)의 깨끗한 이미지로 표시하고 eta를 x를 기반으로 생성된 노이즈 이미지로 표시합니다. 소음 유형과 심각도는 각각 4가지 기상 조건(즉, 비, 눈, 안개, 햇빛)과 1~5까지의 5가지 심각도 수준에서 무작위로 선택되었습니다. MobileSAM의 이미지 인코더인 SAM을 인코더로 사용하는 반면 디코더 및 재구성 손실은 DMAE와 동일합니다.

AD-FPN. 큐 가능한 분할 모델인 SAM은 이미지 인코더, 큐 인코더 및 마스크 디코더의 세 부분으로 구성됩니다. 일반적으로 VFM을 학습하려면 이미지 인코더를 일반화한 다음 디코더를 학습해야 합니다. 즉, 이미지 인코더는 다운스트림 모델에 고품질의 강력한 이미지 임베딩을 제공할 수 있는 반면, 마스크 디코더는 의미론적 분할을 위한 디코딩 서비스만 제공하도록 설계되었습니다. 게다가 우리에게 필요한 것은 큐 인코더에 의한 큐 정보 처리보다는 강력한 이미지 기능입니다. 따라서 우리는 강력한 이미지 특징을 추출하기 위해 SAM의 이미지 인코더를 사용합니다. 그러나 SAM은 ViT 시리즈를 이미지 인코더로 활용하여 다중 스케일 기능을 배제하고 고차원 저해상도 기능만 제공합니다. [Li et al., 2022a]에서 영감을 받아 표적 탐지에 필요한 다중 규모 기능을 생성하기 위해 ViT를 기반으로 다중 규모 기능을 제공하는 AD-FPN이 설계되었습니다!

SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion

견고한 이미지 특징을 추출하는 SAM-AD 또는 SAM의 능력에도 불구하고 2D 도메인과 3D 도메인 사이의 격차는 여전히 존재하며 손상된 환경에서 기하학적 정보가 부족한 카메라는 종종 노이즈를 증폭시키고 부정적인 전송 문제를 유발합니다. 이러한 문제를 완화하기 위해 우리는 DGWA(Deep Guided Wavelet Attention) 모듈을 제안하는데, 이는 다음 두 단계로 나눌 수 있습니다. 1) 깊이 안내 네트워크는 이미지 특징과 포인트 클라우드의 깊이 특징을 결합하여 이미지 특징 전에 기하학을 추가하도록 설계되었습니다. 2) Haar 웨이블릿 변환을 사용하여 이미지의 특징을 4개의 하위 대역으로 분해한 다음 Attention 메커니즘을 통해 하위 대역의 정보 특징에 대한 노이즈를 제거할 수 있습니다!

실험적 비교

SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion

원본 링크: https://mp.weixin.qq.com/s/7 8y1 KyipHeUSh5sLQZy-ng

위 내용은 SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7457

Cakephp 튜토리얼

1376

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

Java 프레임워크에 대한 상용 지원의 비용 효율성을 평가하는 방법 Jun 05, 2024 pm 05:25 PM

Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

PHP 프레임워크의 학습 곡선은 다른 언어 프레임워크와 어떻게 비교됩니까? Jun 06, 2024 pm 12:41 PM

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

PHP 프레임워크의 경량 옵션은 애플리케이션 성능에 어떤 영향을 줍니까? Jun 06, 2024 am 10:53 AM

경량 PHP 프레임워크는 작은 크기와 낮은 리소스 소비를 통해 애플리케이션 성능을 향상시킵니다. 그 특징은 다음과 같습니다: 작은 크기, 빠른 시작, 낮은 메모리 사용량, 향상된 응답 속도 및 처리량, 리소스 소비 감소 실제 사례: SlimFramework는 500KB에 불과한 REST API를 생성하며 높은 응답성과 높은 처리량을 제공합니다.

Golang 프레임워크 문서화 모범 사례 Jun 04, 2024 pm 05:00 PM

Golang 프레임워크에서는 명확하고 포괄적인 문서를 작성하는 것이 중요합니다. 모범 사례에는 Google의 Go 코딩 스타일 가이드와 같은 확립된 문서 스타일을 따르는 것이 포함됩니다. 제목, 부제, 목록 등 명확한 조직 구조를 사용하고 탐색 기능을 제공하세요. 시작 안내서, API 참조 및 개념을 포함하여 포괄적이고 정확한 정보를 제공합니다. 코드 예제를 사용하여 개념과 사용법을 설명합니다. 문서를 계속 업데이트하고, 변경 사항을 추적하고, 새로운 기능을 문서화하세요. GitHub 문제 및 포럼과 같은 지원 및 커뮤니티 리소스를 제공합니다. API 문서와 같은 실용적인 예제를 만듭니다.

RedMagic Tablet 3D Explorer Edition은 안경이 필요 없는 3D 디스플레이를 제공합니다. Sep 06, 2024 am 06:45 AM

RedMagic Tablet 3D Explorer Edition은 Gaming Tablet Pro와 함께 출시되었습니다. 그러나 후자가 게이머를 위한 반면 전자는 엔터테인먼트에 더 적합합니다. 새로운 Android 태블릿에는 회사에서 "육안 3D&qu"라고 부르는 기능이 있습니다.

다양한 애플리케이션 시나리오에 가장 적합한 golang 프레임워크를 선택하는 방법 Jun 05, 2024 pm 04:05 PM

애플리케이션 시나리오를 기반으로 최고의 Go 프레임워크를 선택하세요. 애플리케이션 유형, 언어 기능, 성능 요구 사항 및 생태계를 고려하세요. Common Go 프레임워크: Gin(웹 애플리케이션), Echo(웹 서비스), Fiber(높은 처리량), gorm(ORM), fasthttp(속도). 실제 사례: REST API(Fiber) 구축 및 데이터베이스(gorm)와 상호 작용. 프레임워크를 선택하세요. 주요 성능을 위해서는 fasthttp를 선택하고, 유연한 웹 애플리케이션을 위해서는 Gin/Echo를, 데이터베이스 상호작용을 위해서는 gorm을 선택하세요.

golang 프레임워크 개발에 대한 자세한 실제 설명: 질문과 답변 Jun 06, 2024 am 10:57 AM

Go 프레임워크 개발에서 일반적인 과제와 해결 방법은 다음과 같습니다. 오류 처리: 관리에는 오류 패키지를 사용하고 중앙에서 오류를 처리하려면 미들웨어를 사용합니다. 인증 및 권한 부여: 타사 라이브러리를 통합하고 사용자 정의 미들웨어를 생성하여 자격 증명을 확인합니다. 동시 처리: 고루틴, 뮤텍스 및 채널을 사용하여 리소스 액세스를 제어합니다. 단위 테스트: 격리를 위해 getest 패키지, 모의 및 스텁을 사용하고, 충분성을 보장하기 위한 코드 적용 도구를 사용합니다. 배포 및 모니터링: Docker 컨테이너를 사용하여 배포를 패키징하고, 데이터 백업을 설정하고, 로깅 및 모니터링 도구를 사용하여 성능과 오류를 추적합니다.

Golang 프레임워크 학습 과정에서 흔히 저지르는 오해는 무엇입니까? Jun 05, 2024 pm 09:59 PM

Go 프레임워크 학습에는 다섯 가지 오해가 있습니다. 프레임워크에 대한 과도한 의존과 제한된 유연성입니다. 프레임워크 규칙을 따르지 않으면 코드를 유지 관리하기가 어려워집니다. 오래된 라이브러리를 사용하면 보안 및 호환성 문제가 발생할 수 있습니다. 패키지를 과도하게 사용하면 코드 구조가 난독화됩니다. 오류 처리를 무시하면 예기치 않은 동작과 충돌이 발생합니다.

See all articles

SAM을 사용하여 안정적인 다중 모드 3D 감지를 위한 RoboFusion

RoboFusion 네트워크 구조

실험적 비교

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제