기술 주변기기 일체 포함 궤적 예측을 위한 시각적 방법 검토

궤적 예측을 위한 시각적 방법 검토

May 22, 2023 pm 11:54 PM
지능적인 비전

최근 리뷰 논문 "Trajectory-Prediction With Vision: A Survey"는 Hyundai와 Aptiv의 회사인 Motional에서 나온 것이지만, 이는 Oxford University의 리뷰 기사인 "Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey"를 참조한 것입니다.

예측 작업은 기본적으로 두 부분으로 나뉩니다. 1) 에이전트에 대한 일련의 의도 클래스를 미리 설계하는 분류 작업인 의도는 일반적으로 지도 학습 문제로 간주되며, 2) 웨이포인트라고 하는 후속 프레임에서 에이전트의 가능한 위치 집합을 예측해야 하는 궤적. 이는 에이전트 간 및 에이전트와 도로 간의 상호 작용을 구성합니다.

이전의 행동 예측 모델은 물리 기반, 기동 기반, 상호 작용 인식 모델의 세 가지 범주로 나눌 수 있습니다. 이 문장은 다음과 같이 다시 작성할 수 있습니다. 물리적 모델의 동적 방정식을 사용하여 다양한 유형의 에이전트에 대해 인위적으로 제어 가능한 움직임을 설계합니다. 이 방법은 전체 상황의 잠재적 상태를 모델링할 수 없으며 일반적으로 특정 에이전트에만 초점을 맞춥니다. 하지만 딥러닝 이전 시대에는 이러한 트렌드가 SOTA였습니다. 기동 기반 모델은 에이전트가 예상하는 움직임 유형을 기반으로 하는 모델입니다. 상호 작용 인식 모델은 일반적으로 장면의 각 에이전트에 대해 쌍별 추론을 수행하고 모든 동적 에이전트에 대한 상호 작용 인식 예측을 생성하는 기계 학습 기반 시스템입니다. 장면 내 서로 다른 인근 에이전트 대상 간에는 높은 수준의 상관관계가 있습니다. 복잡한 에이전트 궤적 주의 모듈을 모델링하면 더 나은 일반화가 가능합니다.

미래의 행동이나 사건을 예측하는 것은 암묵적으로 표현될 수도 있고 미래의 궤적이 명시적으로 나타날 수도 있습니다. 에이전트의 의도는 다음에 의해 영향을 받을 수 있습니다. a) 에이전트 자신의 신념이나 희망(종종 관찰되지 않아 모델링하기 어려움) b) 풀링, 그래프 신경망, 주의 등 다양한 방식으로 모델링할 수 있는 사회적 상호작용 c) 고화질(HD) 지도를 통해 인코딩할 수 있는 도로 레이아웃과 같은 환경적 제약 d) RGB 이미지 프레임, 라이더 포인트 클라우드, 광학 흐름, 분할 그림 등의 형태로 된 배경 정보 반면 궤적 예측은 의도를 인식하는 것과는 달리 분류 문제가 아닌 회귀(연속) 문제를 포함하기 때문에 더 어려운 문제입니다.

궤적과 의도는 상호작용 인식에서 시작되어야 합니다. 교통량이 많은 고속도로에서 공격적으로 운전하려고 할 때 지나가는 차량이 세게 브레이크를 밟을 수 있다고 가정하는 것이 합리적입니다. 모델링. 궤적 예측이 가능한 BEV 공간에서 모델링하는 것이 더 좋지만 이미지 보기(원근감이라고도 함)에서도 모델링하는 것이 좋습니다. 이 문장은 다음과 같이 다시 작성할 수 있습니다. "관심 영역(RoI)을 그리드 형태로 전용 거리 범위에 할당할 수 있기 때문입니다." 그러나 원근감의 소실선으로 인해 이미지 원근감은 이론적으로 RoI를 무한정 확장할 수 있습니다. BEV 공간은 모션을 보다 선형적으로 모델링하기 때문에 폐색 모델링에 더 적합합니다. 자세 추정(자차의 이동 및 회전)을 수행함으로써 간단하게 자신의 움직임에 대한 보상을 수행할 수 있습니다. 또한 이 공간은 에이전트의 동작과 크기를 보존합니다. 즉, 주변 차량은 자체 차량에서 얼마나 멀리 떨어져 있더라도 동일한 수의 BEV 픽셀을 차지하지만 이미지의 경우는 그렇지 않습니다. 관점. 미래를 예측하려면 과거에 대한 이해가 필요합니다. 이는 일반적으로 추적을 통해 수행되거나 과거 집계된 BEV 기능을 통해 수행될 수 있습니다.

다음 그림은 예측 모델의 일부 구성 요소와 데이터 흐름 블록 다이어그램을 보여줍니다.

궤적 예측을 위한 시각적 방법 검토

다음 표는 예측 모델을 요약한 것입니다.

궤적 예측을 위한 시각적 방법 검토

다음은 기본적으로 입력/에서 시작하는 예측 모델에 대해 설명합니다. 출력:

1) 트랙렛: 인식 모듈은 모든 동적 에이전트의 현재 상태를 예측합니다. 이 상태에는 3차원 중심, 치수, 속도, 가속도 및 기타 속성이 포함됩니다. 추적기는 이 데이터를 활용하고 임시 연결을 설정하여 각 추적기가 모든 에이전트의 상태 기록을 보존할 수 있습니다. 이제 각 트랙렛은 에이전트의 과거 움직임을 나타냅니다. 이러한 형태의 예측 모델은 입력이 희박한 궤적으로만 구성되므로 가장 간단합니다. 좋은 추적기는 에이전트가 현재 프레임에 가려져 있어도 추적할 수 있습니다. 기존 추적기는 머신러닝이 아닌 네트워크를 기반으로 하기 때문에 엔드투엔드 모델을 구현하기가 매우 어렵습니다.

2) 원시 센서 데이터: 모델이 원시 센서 데이터 정보를 획득하고 장면 내 각 에이전트의 궤적 예측을 직접 예측하는 엔드투엔드 방식입니다. 이 방법에는 복잡한 훈련을 감독하기 위한 보조 출력 및 손실이 있을 수도 있고 없을 수도 있습니다. 이러한 유형의 접근 방식의 단점은 입력이 정보 집약적이고 계산 비용이 많이 든다는 것입니다. 이는 인식, 추적, 예측의 세 가지 문제가 합쳐져 ​​모델 개발이 어렵고 융합을 달성하기가 더욱 어려워지기 때문입니다.

3) Camera-vs-BEV: BEV 방식은 탑뷰 지도와 같은 뷰에서 데이터를 처리하며, 카메라 예측 알고리즘은 자율주행차의 관점에서 세상을 인식합니다. 일반적으로 후자가 전자보다 더 어렵습니다. 여러 가지 이유 때문에 첫째, BEV에서 감지하면 더 넓은 시야와 더 풍부한 예측 정보를 얻을 수 있습니다. 이에 비해 카메라의 시야는 더 짧아서 자동차가 시야 밖에서 계획을 세울 수 없기 때문에 예측 범위가 제한됩니다. 또한 카메라가 차단될 가능성이 높기 때문에 다른 방법에 비해 BEV 방법은 LiDAR 데이터를 사용할 수 없는 경우 단안 시야 문제가 더 적습니다. 알고리즘이 문제의 에이전트의 행동을 예측하는 중요한 단서인 깊이를 추론하기 어렵게 만듭니다. 마지막으로 카메라가 움직이기 때문에 에이전트와 차량의 움직임을 처리해야 하는데, 이는 다릅니다. 정적 BEV 언급에서: BEV 표현 방법은 카메라 뷰 처리에 문제가 있지만 여전히 오류가 누적되는 문제가 있습니다. 본질적인 문제가 있지만 여전히 BEV보다 실용적이며 자동차는 거의 없습니다. BEV의 위치를 ​​보여주는 카메라와 도로에 있는 요원을 감시할 수 있습니다. 결론은 예측 시스템이 LiDAR 및/또는 스테레오 카메라를 포함하여 자율주행차의 관점에서 세상을 볼 수 있어야 한다는 것입니다. 이 데이터는 세상을 3D로 인식하는 데 유리할 수 있습니다. 주의를 기울여야 하는 시간 에이전트의 위치를 ​​예측할 때 순수 중심점보다는 경계 상자 위치를 사용하는 것이 더 좋습니다. 왜냐하면 전자의 좌표는 차량과 보행자 사이의 상대적인 거리의 변화도 암시하기 때문입니다. 카메라의 자체 모션, 즉 에이전트로서 신체가 자체 차량에 접근하면 경계 상자가 커져 추가(예비적이지만) 깊이 추정이 제공됩니다.

4) 자가 모션 예측: 자가 차량 모션을 모델링하여 보다 정확한 궤적을 생성합니다. 다른 접근 방식은 심층 네트워크 또는 동적 모델을 사용하여 관심 에이전트의 동작을 모델링하고 자세, 광학 흐름, 의미 지도, 열 지도와 같은 데이터세트 입력에서 계산된 추가 수량을 활용합니다.

5) 시간 영역 인코딩: 운전 환경이 역동적이고 활성 에이전트가 많기 때문에 과거에 일어난 일과 앞으로 일어날 일을 연결하는 더 나은 예측 시스템을 구축하려면 에이전트 시간 차원에서 인코딩해야 합니다. 미래를 통해 현재까지 에이전트가 어디에서 왔는지 알면 에이전트가 다음에 어디로 갈지 추측하는 데 도움이 될 수 있습니다. 대부분의 카메라 기반 모델은 더 짧은 시간 규모를 처리하는 반면 예측 모델은 더 복잡한 구조를 필요로 합니다.

6) 소셜 인코딩: "다중 에이전트" 문제에 대처하기 위해 대부분의 최고 성능 알고리즘은 다양한 유형의 그래프 신경망(GNN)을 사용하여 에이전트 간의 사회적 상호 작용을 인코딩합니다. 대부분의 방법은 시간과 사회적 차원을 별도로 인코딩합니다. - 시간적 차원에서 시작한 다음 사회적 차원을 고려하거나, 역순으로 두 차원을 동시에 인코딩할 수 있는 Transformer 기반 모델이 있습니다.

7) 예상 골을 기반으로 한 예측: 장면 상황과 마찬가지로 행동 의도 예측은 일반적으로 다양한 예상 골의 영향을 받으며 예상 골을 조건으로 한 미래 예측에 대해 설명을 통해 추론해야 합니다. 이 목표는 원하는 움직임 유형을 모델링합니다. 미래 상태(목적지 좌표로 정의됨) 또는 신경 과학 및 컴퓨터 비전 분야의 에이전트 연구에 따르면 인간은 일반적으로 목표 지향 에이전트이며 결정을 내리는 동안 연속적인 추론 수준을 따르고 궁극적으로 짧게 공식화됩니다. -이를 바탕으로 이 질문은 두 가지 범주로 나눌 수 있습니다. 첫 번째는 에이전트가 어디로 가는지에 대한 질문에 대답하는 인지적 질문이고, 두 번째는 이 에이전트가 어떻게 목표를 달성하는지에 대한 질문에 대답하는 것입니다. 의도된 목표.

8) 다중 모드 예측: 도로 환경은 확률적이므로 이전 궤적은 다양한 미래 궤적을 펼칠 수 있습니다. 따라서 "확률성" 문제를 해결하는 실용적인 예측 시스템은 문제 모델링의 불확실성을 처리합니다. 이산 변수의 잠재 공간 모델링을 위한 방법이며, 다중 양식은 궤적에만 적용되어 의도 예측의 잠재력을 완전히 보여주며 가중치를 계산하는 데 사용할 수 있습니다.

위 내용은 궤적 예측을 위한 시각적 방법 검토의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Windows 11의 스마트 앱 제어: 켜거나 끄는 방법 Windows 11의 스마트 앱 제어: 켜거나 끄는 방법 Jun 06, 2023 pm 11:10 PM

지능형 앱 제어는 랜섬웨어나 스파이웨어와 같이 데이터를 손상시킬 수 있는 승인되지 않은 앱으로부터 PC를 보호하는 데 도움이 되는 Windows 11의 매우 유용한 도구입니다. 이 문서에서는 스마트 앱 컨트롤이 무엇인지, 어떻게 작동하는지, Windows 11에서 켜거나 끄는 방법을 설명합니다. Windows 11의 스마트 앱 제어란 무엇입니까? SAC(스마트 앱 제어)는 Windows 1122H2 업데이트에 도입된 새로운 보안 기능입니다. Microsoft Defender 또는 타사 바이러스 백신 소프트웨어와 함께 작동하여 장치 속도를 늦추거나 예상치 못한 광고를 표시하거나 기타 예상치 못한 작업을 수행할 수 있는 잠재적으로 불필요한 앱을 차단합니다. 스마트 애플리케이션

ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. May 30, 2024 am 09:35 AM

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

날아다니는 것, 입을 벌리는 것, 쳐다보는 것, 눈썹을 치켜올리는 것 등의 얼굴 특징을 AI가 완벽하게 모방할 수 있어 영상사기 예방이 불가능하다. 날아다니는 것, 입을 벌리는 것, 쳐다보는 것, 눈썹을 치켜올리는 것 등의 얼굴 특징을 AI가 완벽하게 모방할 수 있어 영상사기 예방이 불가능하다. Dec 14, 2023 pm 11:30 PM

이렇게 강력한 AI 모방 능력을 가지고 있다면, 막는 것은 사실상 불가능합니다. 이제 AI의 발전이 이 정도 수준에 이르렀나? 앞발은 이목구비를 날리게 하고, 뒷발은 쳐다보는 것, 눈썹을 치켜올리는 것, 삐죽이는 것 등 아무리 과장된 표정이라도 완벽하게 흉내낸다. 난이도를 높이고, 눈썹을 더 높이 올리고, 눈을 크게 뜨고, 입 모양까지 비뚤어지게 표현하는 등 가상 캐릭터 아바타가 표정을 완벽하게 재현할 수 있다. 왼쪽의 매개변수를 조정하면 오른쪽의 가상 아바타도 그에 따라 움직임을 변경하여 입과 눈을 클로즈업하여 모방이 완전히 동일하다고는 할 수 없으며 표정만 정확합니다. 마찬가지다(맨 오른쪽). 이 연구는 GaussianAvatars를 제안하는 뮌헨 기술 대학과 같은 기관에서 나왔습니다.

NeRF란 무엇입니까? NeRF 기반 3D 재구성은 복셀 기반인가요? NeRF란 무엇입니까? NeRF 기반 3D 재구성은 복셀 기반인가요? Oct 16, 2023 am 11:33 AM

1 소개 NeRF(Neural Radiation Fields)는 딥 러닝 및 컴퓨터 비전 분야의 상당히 새로운 패러다임입니다. 이 기술은 ECCV2020 논문 "NeRF: Representing Scenes as Neural Radiation Fields for View Synesis"(Best Paper Award 수상)에 소개되었으며 이후 현재까지 거의 800회 인용될 정도로 인기가 높아졌습니다[1]. 이 접근 방식은 기계 학습이 3D 데이터를 처리하는 기존 방식에 큰 변화를 가져옵니다. 신경 방사선장 장면 표현 및 미분 가능한 렌더링 프로세스: 카메라 광선을 따라 5D 좌표(위치 및 시야 방향)를 샘플링하여 이미지를 합성하고 이러한 위치를 MLP에 공급하여 색상 및 체적 밀도를 생성하고 체적 렌더링 기술을 사용하여 이러한 값을 합성합니다. ; 렌더링 함수는 미분 가능하므로 전달될 수 있습니다.

MotionLM: 다중 에이전트 모션 예측을 위한 언어 모델링 기술 MotionLM: 다중 에이전트 모션 예측을 위한 언어 모델링 기술 Oct 13, 2023 pm 12:09 PM

이 글은 자율주행하트 공개 계정의 허가를 받아 재인쇄되었습니다. 재인쇄를 원하시면 출처에 문의해 주세요. 원제: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 논문 링크: https://arxiv.org/pdf/2309.16534.pdf 저자 소속: Waymo 컨퍼런스: ICCV2023 논문 아이디어: 자율 차량 안전 계획을 위해 미래 행동을 안정적으로 예측 도로요원의 역할이 중요합니다. 본 연구는 연속적인 궤적을 개별 모션 토큰의 시퀀스로 표현하고 다중 에이전트 모션 예측을 언어 모델링 작업으로 처리합니다. 우리가 제안하는 모델인 MotionLM은 다음과 같은 장점을 가지고 있습니다.

자율주행의 최초 순수 시각적 정적 재구성 자율주행의 최초 순수 시각적 정적 재구성 Jun 02, 2024 pm 03:24 PM

순수한 시각적 주석 솔루션은 주로 비전과 동적 주석을 위한 GPS, IMU 및 휠 속도 센서의 일부 데이터를 사용합니다. 물론 대량 생산 시나리오의 경우 순수 비전일 필요는 없습니다. 일부 대량 생산 차량에는 고체 레이더(AT128)와 같은 센서가 장착됩니다. 대량 생산 관점에서 데이터 폐쇄 루프를 만들고 이러한 센서를 모두 사용하면 동적 개체에 라벨을 붙이는 문제를 효과적으로 해결할 수 있습니다. 그러나 우리 계획에는 고체 레이더가 없습니다. 따라서 가장 일반적인 대량 생산 라벨링 솔루션을 소개하겠습니다. 순수한 시각적 주석 솔루션의 핵심은 고정밀 포즈 재구성에 있습니다. 재구성 정확도를 보장하기 위해 SFM(Structure from Motion)의 포즈 재구성 방식을 사용합니다. 하지만 통과

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다. OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다. May 08, 2024 am 11:40 AM

위 작성 및 저자 개인적 이해 최근 자율주행은 운전자의 부담을 줄이고 운전 안전성을 높일 수 있다는 점에서 주목을 받고 있다. 비전 기반 3차원 점유 예측은 자율 주행 안전에 대한 비용 효율적이고 포괄적인 조사에 적합한 새로운 인식 작업입니다. 많은 연구에서 객체 중심 인식 작업에 비해 3D 점유 예측 도구의 우수성을 입증했지만, 빠르게 발전하는 이 분야에 대한 리뷰는 여전히 남아 있습니다. 본 논문에서는 먼저 비전 기반 3D 점유 예측의 배경을 소개하고 이 작업에서 직면하는 과제에 대해 논의합니다. 다음으로, 기능 향상, 배포 친화성, 라벨링 효율성이라는 세 가지 측면에서 현재 3D 점유 예측 방법의 현황과 개발 동향을 종합적으로 논의합니다. 마침내

3D 비전을 위해서는 포인트 클라우드 등록이 필수입니다! 하나의 기사로 모든 ​​주요 솔루션과 과제를 이해하세요 3D 비전을 위해서는 포인트 클라우드 등록이 필수입니다! 하나의 기사로 모든 ​​주요 솔루션과 과제를 이해하세요 Apr 02, 2024 am 11:31 AM

포인트의 집합체인 포인트 클라우드는 3차원 재구성, 산업검사, 로봇 운용 등을 통해 사물의 3차원(3D) 표면정보 획득과 ​​생성에 변화를 가져올 것으로 기대된다. 가장 어렵지만 필수적인 프로세스는 포인트 클라우드 등록, 즉 서로 다른 두 좌표에서 얻은 두 포인트 클라우드를 정렬하고 일치시키는 공간 변환을 얻는 것입니다. 본 리뷰에서는 포인트 클라우드 등록의 개요와 기본 원리를 소개하고, 다양한 방법을 체계적으로 분류 및 비교하며, 포인트 클라우드 등록에 존재하는 기술적 문제를 해결하고, 현장 외부의 학술 연구자와 엔지니어에게 지침을 제공하고 통일된 비전에 대한 논의를 촉진하고자 합니다. 포인트 클라우드 등록을 위해. 일반적인 포인트 클라우드 획득 방법은 능동(Active) 방식과 수동(Passive) 방식으로 구분되며, 센서에 의해 능동적으로 획득되는 포인트 클라우드는 나중에 재구성되는 방식이다.

See all articles