목차
Network Design:
기술 주변기기 일체 포함 UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

Sep 16, 2023 pm 08:29 PM
지능적인 비전

원제: UniOcc: 기하학적 및 의미적 렌더링을 통한 시각 중심 3D 점유 예측 통합

논문을 보려면 다음 링크를 클릭하십시오: https://arxiv.org/pdf/2306.09117.pdf

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

Paper 아이디어:

이 기술 보고서에서는 CVPR 2023 nuScenes Open Dataset Challenge에서 비전 중심 3D 점유 예측 궤적을 위한 UniOCC라는 솔루션을 제안합니다. 기존 점유 예측 방법은 주로 3차원 체적 공간의 투영된 특성을 최적화하기 위해 3차원 점유 라벨을 사용하는 데 중점을 둡니다. 그러나 이러한 레이블의 생성 프로세스는 매우 복잡하고 비용이 많이 들고(3D 의미 주석에 의존) 복셀 해상도에 의해 제한되며 세밀한 공간 의미를 제공할 수 없습니다. 이러한 한계를 해결하기 위해 우리는 공간적 기하학적 제약을 명시적으로 부과하고 볼륨 레이 렌더링을 통해 세분화된 의미론적 감독을 보완하는 새로운 UniOcc(Unified Occupancy) 예측 방법을 제안합니다. 우리의 방법은 모델 성능을 크게 향상시키고 수동 주석 비용을 줄이는 데 좋은 잠재력을 보여줍니다. 3D 점유에 주석을 다는 작업의 수고로움을 고려하여 우리는 레이블이 지정되지 않은 데이터를 사용하여 예측 정확도를 향상시키기 위해 깊이 인식 교사 학생(DTS) 프레임워크를 제안합니다. 우리 솔루션은 공식 단일 모델 순위에서 51.27% mIoU를 달성하여 이번 챌린지에서 3위를 차지했습니다.

Network Design:

이 챌린지에서 본 논문은 볼륨 렌더링을 활용하여 감독을 통합하는 일반적인 솔루션인 UniOcc를 제안합니다. 2D 및 3D 표현을 통해 다중 카메라 점유 예측 모델을 개선합니다. 이 논문은 새로운 모델 아키텍처를 설계하지 않지만 기존 모델[3, 18, 20]을 다용도 및 플러그 앤 플레이 방식으로 향상시키는 데 중점을 둡니다.

다음과 같이 다시 작성됨: 이 논문은 표현을 NeRF 스타일 표현으로 업그레이드하여 볼륨 렌더링을 사용하여 2D 의미론적 및 깊이 맵을 생성하는 기능을 구현합니다[1, 15, 21]. 이를 통해 2D 픽셀 수준에서 세밀한 감독이 가능합니다. 3차원 복셀을 광선 샘플링하여 렌더링된 2차원 픽셀 의미 및 깊이 정보를 얻을 수 있습니다. 기하학적 폐색 관계와 의미론적 일관성 제약 조건을 명시적으로 통합함으로써 이 문서는 모델에 대한 명시적인 지침을 제공하고 이러한 제약 조건을 준수하도록 보장합니다. UniOcc는 값비싼 3D 의미론적 주석에 대한 의존도를 줄일 수 있는 잠재력이 있다는 점은 언급할 가치가 있습니다. 3D 점유 레이블이 없는 경우 볼륨 렌더링 감독만 사용하여 훈련한 모델은 3D 레이블 감독을 사용하여 훈련한 모델보다 성능이 훨씬 뛰어납니다. 이는 저렴한 2D 분할 레이블에서 장면 표현을 직접 학습할 수 있으므로 값비싼 3D 의미 주석에 대한 의존도를 줄이는 흥미로운 잠재력을 강조합니다. 또한 SAM [6] 및 [14,19]과 같은 고급 기술을 활용하면 2D 분할 주석 비용을 더욱 줄일 수 있습니다.

이 글에서는 자기주도형 훈련 방법인 DTS(Depth Sensing Teacher-Student) 프레임워크도 소개합니다. 기존의 Mean Teacher와 달리 DTS는 교사 모델의 심층 예측을 향상하여 레이블이 지정되지 않은 데이터를 활용하면서 안정적이고 효과적인 교육을 달성합니다. 또한 본 논문에서는 모델의 성능을 향상시키기 위해 간단하면서도 효과적인 몇 가지 기술을 적용합니다. 여기에는 훈련 시 눈에 보이는 마스크 사용, 더 강력한 사전 훈련된 백본 네트워크 사용, 복셀 해상도 증가, 테스트 시간 데이터 증대(TTA) 구현이 포함됩니다.

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다! 다음은 UniOcc 프레임워크의 개요입니다. 사진 1

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!사진 2. 깊이를 인식하는 교사-학생 프레임워크.

실험 결과:

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!

인용:

Pan, M., Liu, L., Liu, J., Huang, P., Wang, L., Zhang, S. , Xu, S., Lai, Z., Yang, K. (2023). UniOcc: 비전 중심의 3D 점유 예측으로 기하학적 및 의미론적 렌더링을 통합합니다. ArXiv. /abs/2306.09117

UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!원본링크 : https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg

위 내용은 UniOcc: 기하학적 및 의미론적 렌더링으로 비전 중심 점유 예측을 통합합니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Windows 11의 스마트 앱 제어: 켜거나 끄는 방법 Windows 11의 스마트 앱 제어: 켜거나 끄는 방법 Jun 06, 2023 pm 11:10 PM

지능형 앱 제어는 랜섬웨어나 스파이웨어와 같이 데이터를 손상시킬 수 있는 승인되지 않은 앱으로부터 PC를 보호하는 데 도움이 되는 Windows 11의 매우 유용한 도구입니다. 이 문서에서는 스마트 앱 컨트롤이 무엇인지, 어떻게 작동하는지, Windows 11에서 켜거나 끄는 방법을 설명합니다. Windows 11의 스마트 앱 제어란 무엇입니까? SAC(스마트 앱 제어)는 Windows 1122H2 업데이트에 도입된 새로운 보안 기능입니다. Microsoft Defender 또는 타사 바이러스 백신 소프트웨어와 함께 작동하여 장치 속도를 늦추거나 예상치 못한 광고를 표시하거나 기타 예상치 못한 작업을 수행할 수 있는 잠재적으로 불필요한 앱을 차단합니다. 스마트 애플리케이션

ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. May 30, 2024 am 09:35 AM

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

날아다니는 것, 입을 벌리는 것, 쳐다보는 것, 눈썹을 치켜올리는 것 등의 얼굴 특징을 AI가 완벽하게 모방할 수 있어 영상사기 예방이 불가능하다. 날아다니는 것, 입을 벌리는 것, 쳐다보는 것, 눈썹을 치켜올리는 것 등의 얼굴 특징을 AI가 완벽하게 모방할 수 있어 영상사기 예방이 불가능하다. Dec 14, 2023 pm 11:30 PM

이렇게 강력한 AI 모방 능력을 가지고 있다면, 막는 것은 사실상 불가능합니다. 이제 AI의 발전이 이 정도 수준에 이르렀나? 앞발은 이목구비를 날리게 하고, 뒷발은 쳐다보는 것, 눈썹을 치켜올리는 것, 삐죽이는 것 등 아무리 과장된 표정이라도 완벽하게 흉내낸다. 난이도를 높이고, 눈썹을 더 높이 올리고, 눈을 크게 뜨고, 입 모양까지 비뚤어지게 표현하는 등 가상 캐릭터 아바타가 표정을 완벽하게 재현할 수 있다. 왼쪽의 매개변수를 조정하면 오른쪽의 가상 아바타도 그에 따라 움직임을 변경하여 입과 눈을 클로즈업하여 모방이 완전히 동일하다고는 할 수 없으며 표정만 정확합니다. 마찬가지다(맨 오른쪽). 이 연구는 GaussianAvatars를 제안하는 뮌헨 기술 대학과 같은 기관에서 나왔습니다.

NeRF란 무엇입니까? NeRF 기반 3D 재구성은 복셀 기반인가요? NeRF란 무엇입니까? NeRF 기반 3D 재구성은 복셀 기반인가요? Oct 16, 2023 am 11:33 AM

1 소개 NeRF(Neural Radiation Fields)는 딥 러닝 및 컴퓨터 비전 분야의 상당히 새로운 패러다임입니다. 이 기술은 ECCV2020 논문 "NeRF: Representing Scenes as Neural Radiation Fields for View Synesis"(Best Paper Award 수상)에 소개되었으며 이후 현재까지 거의 800회 인용될 정도로 인기가 높아졌습니다[1]. 이 접근 방식은 기계 학습이 3D 데이터를 처리하는 기존 방식에 큰 변화를 가져옵니다. 신경 방사선장 장면 표현 및 미분 가능한 렌더링 프로세스: 카메라 광선을 따라 5D 좌표(위치 및 시야 방향)를 샘플링하여 이미지를 합성하고 이러한 위치를 MLP에 공급하여 색상 및 체적 밀도를 생성하고 체적 렌더링 기술을 사용하여 이러한 값을 합성합니다. ; 렌더링 함수는 미분 가능하므로 전달될 수 있습니다.

자율주행의 최초 순수 시각적 정적 재구성 자율주행의 최초 순수 시각적 정적 재구성 Jun 02, 2024 pm 03:24 PM

순수한 시각적 주석 솔루션은 주로 비전과 동적 주석을 위한 GPS, IMU 및 휠 속도 센서의 일부 데이터를 사용합니다. 물론 대량 생산 시나리오의 경우 순수 비전일 필요는 없습니다. 일부 대량 생산 차량에는 고체 레이더(AT128)와 같은 센서가 장착됩니다. 대량 생산 관점에서 데이터 폐쇄 루프를 만들고 이러한 센서를 모두 사용하면 동적 개체에 라벨을 붙이는 문제를 효과적으로 해결할 수 있습니다. 그러나 우리 계획에는 고체 레이더가 없습니다. 따라서 가장 일반적인 대량 생산 라벨링 솔루션을 소개하겠습니다. 순수한 시각적 주석 솔루션의 핵심은 고정밀 포즈 재구성에 있습니다. 재구성 정확도를 보장하기 위해 SFM(Structure from Motion)의 포즈 재구성 방식을 사용합니다. 하지만 통과

MotionLM: 다중 에이전트 모션 예측을 위한 언어 모델링 기술 MotionLM: 다중 에이전트 모션 예측을 위한 언어 모델링 기술 Oct 13, 2023 pm 12:09 PM

이 글은 자율주행하트 공개 계정의 허가를 받아 재인쇄되었습니다. 재인쇄를 원하시면 출처에 문의해 주세요. 원제: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 논문 링크: https://arxiv.org/pdf/2309.16534.pdf 저자 소속: Waymo 컨퍼런스: ICCV2023 논문 아이디어: 자율 차량 안전 계획을 위해 미래 행동을 안정적으로 예측 도로요원의 역할이 중요합니다. 본 연구는 연속적인 궤적을 개별 모션 토큰의 시퀀스로 표현하고 다중 에이전트 모션 예측을 언어 모델링 작업으로 처리합니다. 우리가 제안하는 모델인 MotionLM은 다음과 같은 장점을 가지고 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다. OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다. May 08, 2024 am 11:40 AM

위 작성 및 저자 개인적 이해 최근 자율주행은 운전자의 부담을 줄이고 운전 안전성을 높일 수 있다는 점에서 주목을 받고 있다. 비전 기반 3차원 점유 예측은 자율 주행 안전에 대한 비용 효율적이고 포괄적인 조사에 적합한 새로운 인식 작업입니다. 많은 연구에서 객체 중심 인식 작업에 비해 3D 점유 예측 도구의 우수성을 입증했지만, 빠르게 발전하는 이 분야에 대한 리뷰는 여전히 남아 있습니다. 본 논문에서는 먼저 비전 기반 3D 점유 예측의 배경을 소개하고 이 작업에서 직면하는 과제에 대해 논의합니다. 다음으로, 기능 향상, 배포 친화성, 라벨링 효율성이라는 세 가지 측면에서 현재 3D 점유 예측 방법의 현황과 개발 동향을 종합적으로 논의합니다. 마침내

몇 년 안에 프로그래머가 쇠퇴할 것이라는 사실을 알고 계십니까? 몇 년 안에 프로그래머가 쇠퇴할 것이라는 사실을 알고 계십니까? Nov 08, 2023 am 11:17 AM

"ComputerWorld" 잡지는 IBM이 엔지니어가 필요한 수학 공식을 작성한 다음 이를 제출하면 프로그래밍이 종료되도록 하는 새로운 언어 FORTRAN을 개발했기 때문에 "프로그래밍은 1960년에 사라질 것"이라는 기사를 쓴 적이 있습니다. 몇 년 후 우리는 비즈니스 용어를 사용하여 문제를 설명하고 컴퓨터에 COBOL이라는 프로그래밍 언어를 사용하면 더 이상 프로그래머가 필요하지 않다는 새로운 말을 들었습니다. 이후 IBM은 직원들이 양식을 작성하고 보고서를 생성할 수 있는 RPG라는 새로운 프로그래밍 언어를 개발해 회사의 프로그래밍 요구 사항 대부분을 이를 통해 완료할 수 있다고 합니다.

See all articles