교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc-일체 포함-php.cn

이 문서는 Rad를 제안합니다. 점유 예측 패러다임을 위한 3D Novel 교차 모드 지식 증류 도구인 Occ . 이는 차별화 가능한 볼륨 렌더링을 통해 시각적 학생 모델에 기하학적 및 의미론적 지침을 제공하기 위해 다중 모드 교사 모델을 활용합니다. 또한 본 논문에서는 교사와 학생 모델 간의 광선 분포와 친화도 매트릭스를 정렬하기 위해 깊이 일관성 손실과 의미론적 일관성 손실이라는 두 가지 새로운 일관성 기준을 제안합니다. Occ3D 및 nuScenes 데이터 세트에 대한 광범위한 실험에서는 RadOcc가 다양한 3D 점유 예측 방법의 성능을 크게 향상시킬 수 있음을 보여줍니다. 우리의 방법은 Occ3D 챌린지 벤치마크에서 최첨단 결과를 달성하고 기존에 발표된 방법보다 훨씬 뛰어난 성능을 발휘합니다. 우리는 우리의 작업이 장면 이해의 교차 모드 학습에 대한 새로운 가능성을 열어준다고 믿습니다.

집

기술 주변기기

일체 포함

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

PHPz

Jan 25, 2024 am 11:36 AM

3d 예측하다

원제: Radocc: 렌더링 보조 증류를 통한 교차 양식 점유 지식 학습

논문 링크: https://arxiv.org/pdf/2312.11829.pdf

저자 소속: FNii, CUHK-Shenzhen SSE, CUHK-Shenzhen Huawei Noah's Ark Laboratory

컨퍼런스: AAAI 2024

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

논문 아이디어:

3D 점유 예측은 다중 뷰 이미지를 사용하여 3D 장면의 점유 상태와 의미를 추정하는 것을 목표로 하는 새로운 작업입니다. 그러나 이미지 기반 장면 인식은 기하학적 사전 지식이 부족하여 정확한 예측을 달성하는 데 심각한 문제에 직면합니다. 본 논문에서는 이 작업에서 교차 모달 지식 증류를 탐색하여 이 문제를 해결합니다. 즉, 훈련 프로세스 중에 시각적 모델을 안내하기 위해 보다 강력한 다중 모달 모델을 활용합니다. 실제로 본 논문에서는 조감도(BEV) 인식에서 제안되고 널리 사용되는 특징 또는 로짓 정렬을 직접 적용해도 만족스러운 결과를 얻지 못한다는 점을 관찰했습니다. 이 문제를 극복하기 위해 본 논문에서는 3차원 점유 예측을 위한 렌더링 기반 증류 패러다임인 RadOcc를 소개합니다. 차별화 가능한 볼륨 렌더링을 사용하여 관점에 따른 깊이 및 의미 맵을 생성하고 교사 모델과 학생 모델의 렌더링된 출력 간의 두 가지 새로운 일관성 기준을 제안합니다. 구체적으로, 깊이 일관성 손실은 렌더링 광선의 종료 분포를 정렬하는 반면, 의미론적 일관성 손실은 VLM(비주얼 기본 모델)에 의해 안내되는 세그먼트 내 유사성을 모방합니다. nuScenes 데이터세트에 대한 실험 결과는 다양한 3D 점유 예측 방법을 개선하는 데 있어 이 기사에서 제안한 방법의 효율성을 보여줍니다. 예를 들어, 이 기사에서 제안한 방법은 mIoU 측정 기준에서 이 기사의 기준선을 2.2% 향상시키고 2.2%에 도달합니다. Occ3D 벤치마크에서는 50%입니다.

주요 기여:

이 논문에서는 3D 점유율 예측을 위한 RadOcc라는 렌더링 기반 증류 패러다임을 소개합니다. 이는 3D-OP의 교차 모드 지식 증류를 탐구하는 최초의 논문으로, 이 작업에서 기존 BEV 증류 기술을 적용하는 방법에 대한 귀중한 통찰력을 제공합니다.

저자는 두 가지 새로운 증류 제약 조건, 즉 렌더링 깊이와 의미 일관성(RDC 및 RSC)을 제안합니다. 이러한 제약 조건은 비전 기반 모델에 따라 안내되는 광 분포 및 상관 행렬을 정렬하여 지식 전달 프로세스를 효과적으로 향상시킵니다. 이 접근 방식의 핵심은 깊이와 의미 정보를 활용하여 렌더링 프로세스를 안내함으로써 렌더링 결과의 품질과 정확성을 향상시키는 것입니다. 이 두 가지 제약 조건을 결합함으로써 연구원들은 상당한 개선을 달성하여 비전 작업의 지식 전달을 위한 새로운 솔루션을 제공했습니다.

제안된 방법을 적용한 RadOcc는 Occ3D 및 nuScenes 벤치마크에서 최첨단 밀도 및 희소 점유 예측 성능을 보여줍니다. 또한 본 논문에서 제안한 증류 방법이 여러 기본 모델의 성능을 효과적으로 향상시킬 수 있다는 것이 실험을 통해 입증되었습니다.

네트워크 설계:

이 논문은 3D 점유 예측 작업을 위한 교차 모드 지식 증류를 연구한 최초의 논문입니다. BEV 감지 분야에서 BEV 또는 로짓 일관성을 사용한 지식 전달 방법을 기반으로, 본 논문에서는 이러한 증류 기술을 그림 1(a)와 같이 복셀 특징과 복셀 로짓 정렬을 목표로 하는 3D 점유 예측 작업으로 확장합니다. 그러나 예비 실험에서는 이러한 정렬 기술이 3D-OP 작업, 특히 네거티브 전달을 도입하는 이전 방법에서 심각한 문제에 직면하고 있음을 보여줍니다. 이러한 문제는 3D 객체 감지와 점유 예측 간의 근본적인 차이에서 비롯될 수 있습니다. 이는 보다 세밀한 인식 작업으로서 배경 객체뿐만 아니라 기하학적 세부 사항도 캡처해야 합니다.

위 과제를 해결하기 위해 이 논문에서는 미분 볼륨 렌더링을 사용하는 교차 모달 지식 증류를 위한 새로운 방법인 RadOcc를 제안합니다. RadOcc의 핵심 아이디어는 그림 1(b)와 같이 교사 모델과 학생 모델에서 생성된 렌더링 결과를 정렬하는 것입니다. 특히 이 기사에서는 카메라의 고유 및 외부 매개변수를 사용하여 복셀 특징의 볼륨 렌더링을 수행합니다(Mildenhall et al. 2021). 이를 통해 이 기사는 다양한 관점에서 해당 깊이 맵과 의미 맵을 얻을 수 있습니다. 렌더링된 출력 간의 더 나은 정렬을 달성하기 위해 이 문서에서는 새로운 RDC(렌더링 깊이 일관성) 및 RSC(렌더링 의미 일관성) 손실을 소개합니다. 한편, RDC 손실은 광선 분포의 일관성을 강화하여 학생 모델이 데이터의 기본 구조를 캡처할 수 있도록 합니다. 반면 RSC 손실은 시각적 기본 모델(Kirillov et al. 2023)을 활용하고 친화력 증류를 위해 사전 추출된 세그먼트를 활용합니다. 이 표준을 통해 모델은 다양한 이미지 영역의 의미론적 표현을 학습하고 비교할 수 있으므로 세밀한 세부 정보를 캡처하는 능력이 향상됩니다. 위의 제약 조건을 결합함으로써 본 논문에서 제안된 방법은 교차 모달 지식 증류를 효과적으로 활용하여 성능을 향상시키고 학생 모델을 더 잘 최적화합니다. 이 논문은 조밀하고 희박한 점유 예측에 대한 우리 접근 방식의 효율성을 보여 주며 두 작업 모두에서 최첨단 결과를 달성합니다.

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

그림 1: 렌더링 보조 증류. (a) 기존 방법은 특징이나 로짓을 정렬합니다. (b) 본 논문에서 제안하는 RadOcc 방법은 렌더링된 깊이 맵과 의미를 동시에 제한한다. 교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc 그림 2: RadOcc의 전체 프레임워크. 교사 네트워크는 다중 모드 모델이고 학생 네트워크는 카메라 입력만 허용하는 교사-학생 아키텍처를 채택합니다. 두 네트워크의 예측은 차별화 가능한 볼륨 렌더링을 통해 렌더링 깊이와 의미를 생성하는 데 사용됩니다. 새로 제안된 렌더링 깊이와 의미적 일관성 손실은 렌더링 결과 간에 채택됩니다.

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

그림 3: 렌더링 깊이 분석. 교사(T)와 학생(S)은 렌더링 깊이가 비슷하지만 특히 전경 객체의 경우 조명 종료 분포에 큰 차이가 있습니다.

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

그림 4: 친화도 행렬 생성. 이 기사에서는 먼저 VFM(Vision Foundation Model), 즉 SAM을 사용하여 세그먼트를 원본 이미지로 추출합니다. 이후, 이 글에서는 각 세그먼트에 렌더링된 의미적 특징에 대해 세그먼트 집계를 수행하여 선호도 매트릭스를 얻습니다.

실험 결과:

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

이 문서는 Rad를 제안합니다. 점유 예측 패러다임을 위한 3D Novel 교차 모드 지식 증류 도구인 Occ . 이는 차별화 가능한 볼륨 렌더링을 통해 시각적 학생 모델에 기하학적 및 의미론적 지침을 제공하기 위해 다중 모드 교사 모델을 활용합니다. 또한 본 논문에서는 교사와 학생 모델 간의 광선 분포와 친화도 매트릭스를 정렬하기 위해 깊이 일관성 손실과 의미론적 일관성 손실이라는 두 가지 새로운 일관성 기준을 제안합니다. Occ3D 및 nuScenes 데이터 세트에 대한 광범위한 실험에서는 RadOcc가 다양한 3D 점유 예측 방법의 성능을 크게 향상시킬 수 있음을 보여줍니다. 우리의 방법은 Occ3D 챌린지 벤치마크에서 최첨단 결과를 달성하고 기존에 발표된 방법보다 훨씬 뛰어난 성능을 발휘합니다. 우리는 우리의 작업이 장면 이해의 교차 모드 학습에 대한 새로운 가능성을 열어준다고 믿습니다.

위 내용은 교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7536

Cakephp 튜토리얼

1379

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? Jan 17, 2024 pm 02:57 PM

위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

Microsoft Teams의 3D Fluent 이모티콘에 대해 알아보기 Apr 24, 2023 pm 10:28 PM

특히 Teams 사용자라면 Microsoft가 업무 중심 화상 회의 앱에 새로운 3DFluent 이모티콘을 추가했다는 사실을 기억해야 합니다. Microsoft가 작년에 Teams 및 Windows용 3D 이모티콘을 발표한 후 실제로 플랫폼용으로 업데이트된 기존 이모티콘이 1,800개 이상 나타났습니다. 이 큰 아이디어와 Teams용 3DFluent 이모티콘 업데이트 출시는 공식 블로그 게시물을 통해 처음 홍보되었습니다. 최신 Teams 업데이트로 FluentEmojis가 앱에 제공됩니다. Microsoft는 업데이트된 1,800개의 이모티콘을 매일 사용할 수 있다고 밝혔습니다.

카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 Jan 26, 2024 am 11:18 AM

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

시계열 확률 예측을 위한 분위수 회귀 May 07, 2024 pm 05:04 PM

원본 내용의 의미를 바꾸지 말고 내용을 미세 조정하고 내용을 다시 작성하고 계속하지 마십시오. "분위수 회귀는 이러한 요구를 충족하여 정량화된 확률로 예측 구간을 제공합니다. 이는 특히 응답 변수의 조건부 분포에 관심이 있는 경우 예측 변수와 응답 변수 간의 관계를 모델링하는 데 사용되는 통계 기술입니다. 기존 회귀와 달리 분위수 회귀는 조건부 평균보다는 반응 변수의 조건부 크기를 추정하는 데 중점을 둡니다. "그림 (A): 분위수 회귀 분위수 회귀의 개념은 추정입니다. 회귀 변수 집합 X와 설명된 변수 Y의 분위수. 기존 회귀모형은 실제로 설명변수와 설명변수의 관계를 연구하기 위한 방법이다. 그들은 설명 변수와 설명 변수 사이의 관계에 중점을 둡니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다. Mar 26, 2024 pm 12:41 PM

위에 작성 및 저자의 개인적인 이해: 현재 전체 자율주행 시스템에서 인식 모듈은 중요한 역할을 합니다. 자율주행 시스템의 제어 모듈은 적시에 올바른 판단과 행동 결정을 내립니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다. 순수 비전을 기반으로 한 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있어 업계에서 선호됩니다.

SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 Feb 20, 2024 am 11:48 AM

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

Windows 11의 Paint 3D: 다운로드, 설치 및 사용 가이드 Apr 26, 2023 am 11:28 AM

새로운 Windows 11이 개발 중이라는 소문이 퍼지기 시작했을 때 모든 Microsoft 사용자는 새 운영 체제가 어떤 모습일지, 어떤 결과를 가져올지 궁금해했습니다. 추측 끝에 Windows 11이 여기에 있습니다. 운영 체제에는 새로운 디자인과 기능 변경이 포함되어 있습니다. 일부 추가 기능 외에도 기능 지원 중단 및 제거가 함께 제공됩니다. Windows 11에 없는 기능 중 하나는 Paint3D입니다. 서랍, 낙서, 낙서에 적합한 클래식 페인트를 계속 제공하지만 3D 제작자에게 이상적인 추가 기능을 제공하는 Paint3D를 포기합니다. 몇 가지 추가 기능을 찾고 있다면 최고의 3D 디자인 소프트웨어로 Autodesk Maya를 추천합니다. 좋다

카드 한장으로 30초만에 가상 3D 아내를 만나보세요! Text to 3D는 Maya, Unity 및 기타 제작 도구와 원활하게 연결되어 명확한 모공 세부 정보를 갖춘 고정밀 디지털 휴먼을 생성합니다. May 23, 2023 pm 02:34 PM

ChatGPT는 AI 산업에 닭의 피를 주입했고, 한때 상상할 수 없었던 모든 것이 오늘날 기본적인 관행이 되었습니다. 계속해서 발전하고 있는 Text-to-3D는 Diffusion(이미지), GPT(텍스트)에 이어 AIGC 분야의 차세대 핫스팟으로 평가되며 전례 없는 주목을 받고 있습니다. 아니요, ChatAvatar라는 제품은 공개 베타 버전으로 출시되어 빠르게 700,000회 이상의 조회수와 관심을 얻었으며 Spacesofttheweek에 소개되었습니다. △ChatAvatar는 AI가 생성한 단일 시점/다중 시점 원본 그림에서 3D 스타일화된 캐릭터를 생성하는 Imageto3D 기술도 지원합니다. 현재 베타 버전에서 생성된 3D 모델은 큰 주목을 받았습니다.

See all articles

교차 모드 점유 지식 학습: 렌더링 보조 증류 기술을 사용한 RadOcc

논문 아이디어:

주요 기여:

네트워크 설계:

실험 결과:

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제