NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용-일체 포함-php.cn

Neural Architecture

장면 구성

제한되지 않은 정적 장면

강성 동적 액터

다중 규모 장면 문제

효율적인 샘플링

롤링 셔터 모델링

다양한 카메라 설정

시끄러운 배우 포즈

집

기술 주변기기

일체 포함

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용

王林

Dec 05, 2023 am 11:21 AM

데이터 자율주행

Zenseact, Chalmers University of Technology, Linkoping University 및 Lund University의 "NeuRAD: 자율 주행을 위한 신경 렌더링" 논문.

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용 신경방사선장(NeRF)은 자율주행(AD) 커뮤니티에서 점점 인기를 얻고 있습니다. 최근 방법은 폐쇄 루프 시뮬레이션, AD 시스템 테스트 및 교육 데이터 확대 기술에서 NeRF의 잠재력을 보여주었습니다. 그러나 기존 방법은 종종 긴 훈련 시간, 집중적인 의미론적 감독이 필요하고 일반화가 부족합니다. 이는 결국 AD에서 NeRF의 대규모 적용을 방해합니다. 본 논문에서는 동적 AD 데이터를 위한 강력한 새로운 뷰 합성 방법인 NeuRAD를 제안합니다. 이 접근 방식은 간단한 네트워크 설계, 카메라 및 LiDAR(롤링 셔터, 빔 발산 및 빛 낙하 포함)를 포함한 센서 모델링을 특징으로 하며 즉시 사용 가능한 여러 데이터 세트에서 작동합니다.

그림과 같이 NeuRAD는 역동적인 자동차 장면에 맞춤화된 신경 렌더링 방법입니다. 자차 및 다른 도로 이용자의 자세를 변경할 수 있으며, 참가자를 자유롭게 추가 및/또는 제거할 수 있습니다. 이러한 기능을 통해 NeuRAD는 센서에 현실적인 폐쇄 루프 시뮬레이터 또는 강력한 데이터 증강 엔진과 같은 구성 요소의 기반으로 적합합니다.

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용 이 문서의 목표는 차량 플랫폼, 배우의 자세 또는 둘 다를 변경할 수 있는 실제 센서 데이터를 생성할 수 있는 표현을 배우는 것입니다. 모바일 플랫폼에서 수집한 데이터(설정된 카메라 이미지, LiDAR 포인트 클라우드, 모바일 액터의 크기 및 포즈 추정치)에 액세스할 수 있다고 가정합니다. 실용성을 위해 이 방법은 훈련 및 추론 시간을 최소로 유지하면서 주요 자동차 데이터 세트의 재구성 오류 측면에서 잘 수행되어야 합니다.

그림은 이 기사에서 제안된 방법의 개요입니다. NeuRAD: 배우 인식 해시 코딩으로 구별되는 자동차 장면에 대한 정적 및 동적 관절 신경 기능 필드 학습. 액터의 경계 상자 내에 있는 포인트는 액터 로컬 좌표로 변환되고 액터 인덱스와 함께 사용되어 4D 해시 그리드를 쿼리합니다. 볼륨 렌더링된 조명 수준 기능은 업샘플링 CNN을 사용하여 RGB 값으로 디코딩되고 MLP를 사용하여 광선 낙하 확률 및 강도로 디코딩됩니다.

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용 새로운 뷰 합성[4, 47] 작업을 기반으로 저자는 신경 기능 필드(NFF), NeRF의 일반화[25] 및 유사한 방법[23]을 사용하여 세계를 모델링합니다.

이미지를 렌더링하려면 일련의 카메라 광선을 볼륨 렌더링하여 기능 맵 F를 생성해야 합니다. 논문[47]에 설명된 대로 CNN(Convolutional Neural Network)을 사용하여 최종 이미지를 렌더링합니다. 실제 응용 분야에서 기능 맵은 해상도가 낮으며 광선 쿼리 수를 대폭 줄이기 위해 CNN을 사용하여 업샘플링해야 합니다.

Lidar 센서를 사용하면 자율 차량이 개별 점 집합의 깊이와 반사도(강도)를 측정할 수 있습니다. 그들은 레이저 빔의 펄스를 발사하고 비행 시간을 측정하여 반사 전력의 거리와 반사율을 결정했습니다. 이러한 특성을 포착하기 위해 자세 라이더 센서에서 전송된 펄스는 광선 세트로 모델링되고 볼륨 유사 렌더링 기술이 사용됩니다.

어떤 점으로도 돌아오지 않는 레이저 광선을 생각해 보세요. 반사 전력이 너무 낮으면 광선 강하(ray drop)라는 현상이 발생하는데, 이는 시뮬레이션-실제 차이를 줄이는 모델링에 중요합니다[21]. 일반적으로 이러한 빛은 표면에 닿지 않을 만큼 멀리 이동하거나 거울, 유리 또는 젖은 포장 도로와 같은 열린 공간으로 광선이 반사되는 표면에 닿습니다. 이러한 효과를 모델링하는 것은 센서의 현실적인 시뮬레이션에 중요하지만 [14]에 명시된 것처럼 낮은 수준 센서 감지 논리의 (종종 공개되지 않은) 세부 사항에 의존하기 때문에 순수하게 물리학 기반으로 캡처하기가 어렵습니다. 따라서 우리는 데이터로부터 광선 낙하를 학습하기로 결정했습니다. 강도와 유사하게, 빛의 특징은 체적적으로 렌더링되고 작은 MLP를 통과하여 빛 낙하 확률 pd(r)을 예측할 수 있습니다. [14]와 달리 LiDAR 빔의 2차 에코는 이 정보가 실험의 5개 데이터 세트에 없기 때문에 모델링되지 않습니다.

신경 특징 필드(NFF)의 정의를 학습 함수(s, f) = NFF(x, t, d)로 확장합니다. 여기서 x는 공간 좌표이고, t는 시간을 나타내고, d는 보는 방향을 나타냅니다. 이 정의는 장면의 동적 측면을 모델링하는 데 중요한 입력으로 시간을 도입합니다

Neural Architecture

NFF 아키텍처는 NeRF [4, 27]에서 인정받은 최고의 접근 방식을 따릅니다. 위치 x와 시간 t가 주어지면 행위자 인식 해시 코드를 쿼리합니다. 그런 다음 이 인코딩은 부호 있는 거리 s와 중간 특징 g를 계산하는 작은 MLP에 입력됩니다. 구면 고조파[27]를 사용하여 뷰 방향 d를 인코딩하면 모델이 반사 및 기타 뷰 관련 효과를 캡처할 수 있습니다. 마지막으로 방향 인코딩과 중간 기능은 두 번째 MLP를 통해 공동으로 처리되고 g의 건너뛰기 연결로 향상되어 기능 f가 생성됩니다.

장면 구성

전작 [18, 29, 46, 47]과 유사하게 세계를 정적 배경과 경직된 동적 배우 세트의 두 부분으로 나누고 각 배우는 정의된 3D 경계 상자와 SO(3) 포즈 세트를 사용합니다. 우리는 학습 과정을 단순화하고 훈련 후 새로운 시나리오의 동적 액터 생성을 허용하는 편집 가능성을 허용하는 두 가지 목적을 수행합니다. 다양한 장면 요소에 대해 별도의 NFF를 사용하는 이전 접근 방식과 달리, 우리는 모든 네트워크가 공유되고 정적 구성 요소와 동적 구성 요소 간의 구별이 행위자 인식 해시 인코딩을 통해 투명하게 처리되는 단일 통합 NFF를 사용합니다. 인코딩 전략은 간단합니다. 액터 경계 상자 내에 있는지 여부에 따라 두 가지 기능 중 하나로 주어진 샘플(x,t)을 인코딩합니다.

제한되지 않은 정적 장면

다중 해상도 해시 넷 격자 표현 사용 정적 장면의 표현은 표현력이 뛰어나고 효율적인 표현 방법임이 입증되었습니다. 그러나 무한한 장면을 메쉬에 매핑하기 위해 MipNerf-360에서 제안한 축소 방법을 채택합니다. 이 접근 방식은 단일 해시 메시를 사용하여 인근 도로 요소와 멀리 있는 구름을 정확하게 나타낼 수 있습니다. 대조적으로, 기존 방법은 전용 NFF를 활용하여 하늘과 다른 먼 지역을 캡처합니다.

강성 동적 액터

샘플(x, t)가 액터의 경계 상자 내에 있으면 공간 좌표 x 및 보는 방향 d는 주어진 시간 t에서 배우의 좌표계로 변환됩니다. 나중에 시간적 측면을 무시하고 정적 장면처럼 시간 독립적인 다중 해상도 해시 그리드에서 특징을 샘플링합니다. 간단히 말해서, 여러 다른 해시 그리드를 각 행위자에 대해 하나씩 별도로 샘플링해야 합니다. 그러나 대신 단일 4D 해시 그리드가 사용되며, 여기서 네 번째 차원은 행위자 인덱스에 해당합니다. 이 접근 방식을 사용하면 모든 행위자 기능을 병렬로 샘플링하여 개별 해시 그리드의 성능을 일치시키면서 상당한 속도 향상을 달성할 수 있습니다.

다중 규모 장면 문제

자동차 데이터에 신경 렌더링을 적용할 때 가장 큰 과제 중 하나는 이 데이터에 존재하는 여러 수준의 세부 정보를 처리하는 것입니다. 자동차가 장거리를 이동할 때 멀리서나 가까이서나 많은 표면을 볼 수 있습니다. 이 다중 규모 사례에서는 단순히 iNGP[27] 또는 NeRF의 위치 임베딩을 적용하면 앨리어싱 아티팩트[2]가 발생할 수 있습니다. 이 문제를 해결하기 위해 광선을 절두체로 모델링하는 많은 방법이 있으며, 절두체의 길이 방향은 빈의 크기에 따라 결정되고 방사 방향은 픽셀 면적과 센서로부터의 거리에 따라 결정됩니다 [2, 3, 13]

Zip -NeRF[4]는 현재 iNGP 해시 그리드에 대한 유일한 앤티앨리어싱 방법으로, 두 가지 절두체 모델링 기술인 다중 샘플링과 가중치 감소를 결합합니다. 다중 샘플링에서는 절두체의 여러 위치에 있는 위치 임베딩이 평균화되어 세로 및 방사형 범위를 캡처합니다. 가중치를 낮추기 위해 각 샘플은 셀 크기와 가우스 분산 간의 비율에 비례하여 가중치가 부여된 그리드 기능을 사용하여 등방성 가우스로 모델링되어 미세한 해상도를 효과적으로 억제합니다. 기술을 결합하면 성능이 크게 향상되는 동시에 멀티샘플링을 사용하면 런타임도 크게 늘어납니다. 따라서 이 백서의 목표는 운영에 미치는 영향을 최소화하면서 규모 정보를 통합하는 것입니다. Zip-NeRF에서 영감을 받아 저자는 절두체에 상대적인 크기를 기준으로 해시 그리드 기능의 가중치를 줄이는 직관적인 가중치 감소 방식을 제안합니다.

효율적인 샘플링

대규모 장면을 렌더링할 때의 또 다른 어려움은 효율적인 샘플링 전략이 필요하다는 것입니다. 하나의 이미지에서 근처 교통 표지판에 자세한 텍스트를 렌더링하는 동시에 몇 킬로미터 떨어진 고층 건물 사이의 시차 효과를 캡처할 수 있습니다. 두 가지 목표를 모두 달성하려면 광선을 균일하게 샘플링하려면 광선당 수천 개의 샘플이 필요하며 이는 계산상 불가능합니다. 이전 작업에서는 샘플을 잘라내기 위해 LiDAR 데이터에 크게 의존했기 때문에[47] LiDAR 작업 외부에서 렌더링하기가 어려웠습니다.

대신 이 문서에서는 광선 원점으로부터의 거리에 따라 샘플 사이의 공간이 증가하는 전력 함수[4]에 따라 광선을 따라 샘플을 렌더링합니다. 그렇다고 하더라도 표본 크기의 급격한 증가로 모든 관련 조건을 만족하는 것은 불가능합니다. 따라서 광선을 따라 가중치 분포를 생성하기 위해 신경 기능 필드(NFF)의 경량 버전을 쿼리하는 두 라운드의 제안 샘플링[25]도 사용됩니다. 그런 다음 이러한 가중치를 기반으로 새로운 샘플 세트가 렌더링됩니다. 이 프로세스를 두 번 반복하면 광선의 관련 위치에 집중되어 전체 크기 NFF를 쿼리하는 데 사용할 수 있는 정제된 샘플 세트가 얻어집니다. 제안된 네트워크를 감독하기 위해 안티 앨리어싱 온라인 증류 방법[4]이 채택되었으며 감독에는 LiDAR가 추가로 사용되었습니다.

롤링 셔터 모델링

표준 NeRF 기반 공식에서는 각 이미지가 원점 o에서 캡처된 것으로 가정합니다. 그러나 많은 카메라 센서에는 픽셀 행이 순차적으로 캡처되는 롤링 셔터가 있습니다. 따라서 카메라 센서는 첫 번째 행 캡처와 마지막 행 캡처 사이를 이동할 수 있어 단일 원점이라는 가정을 깨뜨립니다. 이는 합성 데이터[24] 또는 느린 휴대용 카메라로 촬영한 데이터에서는 문제가 되지 않지만, 빠르게 움직이는 차량, 특히 측면 카메라의 촬영에서는 롤링 셔터가 눈에 띄게 됩니다. LiDAR에서도 동일한 효과가 나타납니다. 각 스캔은 일반적으로 0.1초 안에 수집됩니다. 이는 고속도로 속도로 이동할 때 수 미터의 움직임에 해당합니다. 자체 동작 보상 포인트 클라우드의 경우에도 이러한 차이로 인해 3D 포인트가 다른 형상을 통과하는 광선으로 변환되는 유해한 시선 오류가 발생할 수 있습니다. 이러한 효과를 완화하기 위해 롤링 셔터는 각 광선에 별도의 시간을 제공하고 추정된 동작을 기반으로 원점을 조정하여 모델링됩니다. 롤링 셔터는 장면의 모든 동적 요소에 영향을 미치므로 각 개별 조명 시간과 배우 포즈에 대해 선형 보간이 수행됩니다.

다양한 카메라 설정

자율 주행 시퀀스를 시뮬레이션할 때의 또 다른 문제는 이미지가 노출과 같은 캡처 매개변수가 다를 수 있는 서로 다른 카메라에서 나온다는 것입니다. 여기에서는 각 이미지에 대해 모양 임베딩을 학습하고 해당 기능과 함께 두 번째 MLP에 전달하는 "야생의 NeRF"[22]에 대한 연구에서 영감을 얻었습니다. 그러나 어떤 이미지가 어떤 센서에서 나오는지 알면 대신 각 센서에 대해 단일 임베딩을 학습하여 과적합 가능성을 최소화하고 새로운 뷰를 생성할 때 이러한 센서 임베딩을 사용할 수 있습니다. 이러한 임베딩은 볼륨 렌더링 후에 적용되므로 색상 대신 기능을 렌더링할 때 계산 오버헤드가 크게 줄어듭니다.

시끄러운 배우 포즈

모델은 주석 형식이든 추적 출력이든 동적 배우 포즈를 추정하는 데 의존합니다. 단점을 해결하기 위해 배우 포즈는 학습 가능한 매개변수로 모델에 통합되고 공동으로 최적화됩니다. 자세는 6D 표현을 사용하여 이동 t 및 회전 R로 매개변수화됩니다[50].

NeuRAD는 Nerfstudio[33] 오픈 소스 프로젝트에서 구현됩니다. 훈련은 Adam [17] 최적화 프로그램을 사용하여 20,000회 반복 수행됩니다. NVIDIA A100에서는 훈련에 약 1시간이 걸립니다.

UniSim 재현: UniSim [47]은 신경 폐쇄 루프 센서 시뮬레이터입니다. 이는 사실적인 렌더링을 특징으로 하며 사용 가능한 감독에 대해 거의 가정하지 않습니다. 즉, 카메라 이미지, LiDAR 포인트 클라우드, 센서 포즈 및 동적 배우 궤적이 있는 3D 경계 상자만 필요합니다. 이러한 특성으로 인해 UniSim은 새로운 자율 주행 데이터 세트에 쉽게 적용할 수 있으므로 적합한 기준이 됩니다. 그러나 코드는 비공개 소스이며 비공식 구현은 없습니다. 따라서 이 기사에서는 UniSim을 자체 모델로 다시 구현하고 Nerfstudio[33]에서 구현하기로 선택했습니다. UniSim의 주요 기사에서는 많은 모델 세부 사항을 자세히 설명하지 않으므로 IEEE Xplore에서 제공하는 보충 자료에 의존해야 합니다. 그럼에도 불구하고 일부 세부 사항은 아직 알려지지 않았으며 저자는 선택된 10개의 PandaSet [45] 시퀀스에 대해 보고된 성능과 일치하도록 이러한 하이퍼 매개변수를 조정했습니다.

위 내용은 NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7529

Cakephp 튜토리얼

1378

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

ddrescue를 사용하여 Linux에서 데이터 복구 Mar 20, 2024 pm 01:37 PM

DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

오픈 소스! ZoeDepth를 넘어! DepthFM: 빠르고 정확한 단안 깊이 추정! Apr 03, 2024 pm 12:04 PM

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

Google은 열광하고 있습니다. JAX 성능이 Pytorch와 TensorFlow를 능가합니다! GPU 추론 훈련을 위한 가장 빠른 선택이 될 수 있습니다. Apr 01, 2024 pm 07:46 PM

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

iPhone의 느린 셀룰러 데이터 인터넷 속도: 수정 사항 May 03, 2024 pm 09:01 PM

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다. Apr 29, 2024 pm 06:55 PM

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다!

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

다섯 개의 유연한 손가락과 초인적인 속도를 갖춘 인간 작업을 자율적으로 완료하는 최초의 로봇 등장, 가상 공간 훈련을 지원하는 대형 모델 Mar 11, 2024 pm 12:10 PM

이번 주, 오픈AI(OpenAI), 마이크로소프트(Microsoft), 베조스(Bezos), 엔비디아(Nvidia)가 투자한 로봇 회사인 FigureAI는 약 7억 달러의 자금 조달을 받았으며 내년 내에 독립적으로 걸을 수 있는 휴머노이드 로봇을 개발할 계획이라고 발표했습니다. 그리고 Tesla의 Optimus Prime은 계속해서 좋은 소식을 받았습니다. 올해가 휴머노이드 로봇이 폭발하는 해가 될 것이라는 데는 누구도 의심하지 않는다. 캐나다에 본사를 둔 로봇 회사인 SanctuaryAI는 최근 새로운 휴머노이드 로봇인 Phoenix를 출시했습니다. 관계자들은 이 로봇이 인간과 같은 속도로 자율적으로 많은 작업을 완료할 수 있다고 주장한다. 인간의 속도로 자동으로 작업을 완료할 수 있는 세계 최초의 로봇인 Pheonix는 각 물체를 부드럽게 잡고 움직이며 우아하게 왼쪽과 오른쪽에 배치할 수 있습니다. 자동으로 물체를 식별할 수 있습니다.

See all articles

NeuRAD: 자율주행 분야의 선도적인 다중 데이터 세트 신경 렌더링 기술 적용

Neural Architecture

장면 구성

제한되지 않은 정적 장면

강성 동적 액터

다중 규모 장면 문제

효율적인 샘플링

롤링 셔터 모델링

다양한 카메라 설정

시끄러운 배우 포즈

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제