목차
저자의 개인적인 생각
자율주행 해석
자율주행에서의 다중 작업 학습
ADAPT 방법
비디오 인코더
Prediction Heads
텍스트 생성 헤드
제어 신호 예측 헤드
합동 훈련
실험 설계 및 비교
Dataset
구체적인 구현 세부사항
합동 훈련의 영향
Single+
다양한 제어 신호 유형의 영향
필수 재작성된 내용은 다음과 같습니다. 원본 링크: https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ
기술 주변기기 일체 포함 새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

Oct 11, 2023 pm 12:57 PM
기술 자율주행

본 글은 자율주행하트 공개 계정의 승인을 받아 재인쇄되었습니다.

저자의 개인적인 생각

올해는 End-to-end가 매우 인기 있는 방향입니다. 올해 CVPR 최우수 논문도 UniAD에 상을 받았지만, end-to-end에도 문제가 많습니다. 해석성이 낮고, 훈련이 수렴되기 어렵기 때문에 해당 분야의 일부 학자들은 점차 엔드투엔드 해석성에 관심을 돌리기 시작했습니다. 오늘은 엔드투엔드 해석성에 관한 최신 연구를 여러분과 공유하겠습니다. ADAPT. 이 방법은 Transformer 아키텍처를 기반으로 하며 멀티 태스킹을 사용합니다. 공동 훈련 방법은 각 결정에 대한 차량 동작 설명과 추론을 끝까지 출력합니다. ADAPT에 대한 저자의 생각은 다음과 같습니다.

  1. 영상의 2D 기능을 활용한 예측입니다. 2D 기능을 bev 기능으로 변환하면 효과가 더 좋아질 가능성이 있습니다. LLM과 결합하면 더 좋을 수 있습니다. 예를 들어 텍스트 생성 부분이 LLM으로 대체됩니다.
  2. 현재 작업은 역사적인 비디오를 입력으로 사용하고 예측된 동작과 그에 대한 설명도 역사적이라면 더 의미가 있을 수 있습니다.
  3. 이미지를 토큰화하여 얻은
  4. 토큰은 좀 과하고 쓸모없는 정보가 많을 수도 있습니다.
출발점이 무엇인가요?

엔드투엔드 자율주행은 운송 산업에서 엄청난 잠재력을 갖고 있으며, 현재 이 분야에 대한 연구가 뜨겁습니다. 예를 들어 CVPR2023의 최고 논문인 UniAD는 엔드 투 엔드 자동 운전을 수행합니다. 그러나 자동화된 의사결정 프로세스의 투명성과 설명 가능성이 부족하면 결국 도로 위의 실제 차량에서는 안전이 최우선 과제가 됩니다. 모델 해석성을 향상시키기 위해 주의 맵이나 비용 볼륨을 사용하려는 초기 시도가 있었지만 이러한 방법은 이해하기 어렵습니다. 그래서 이 작업의 출발점은 의사결정을 이해하기 쉽게 설명하는 방법을 찾는 것입니다. 아래 그림은 여러 가지 방법을 비교한 것임은 분명 말로 이해하기 쉽습니다.

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

ADAPT의 장점은 무엇인가요?

각 결정에 대한 차량 동작 설명 및 추론을 끝까지 출력할 수 있습니다.
  1. 이 방법은 변압기 네트워크 구조를 기반으로 하며 다중 작업 방법을 통해 공동 훈련을 수행합니다.
  2. BDD-X(Berkeley; DeepDrive eXplanation)은 데이터 세트에 대해 SOTA 효과를 달성했습니다.
  3. 실제 시나리오에서 시스템의 효율성을 검증하기 위해 이 시스템은 원본 비디오를 입력하고 실제 동작에 대한 설명과 추론을 출력할 수 있습니다. ;
효과 표시

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색효과는 여전히 매우 좋습니다. 특히 세 번째 어두운 밤 장면에서 신호등이 눈에 띕니다.

해당 분야의 현재 진행 상황

비디오 캡션

비디오 설명의 주요 목표는 주어진 비디오의 개체와 관계를 자연어로 설명하는 것입니다. 초기 연구 작업은 유연성이 없고 풍부함이 부족한 고정된 템플릿에 식별된 요소를 채워 특정 구문 구조를 가진 문장을 생성했습니다.

유연한 구문 구조로 자연스러운 문장을 생성하기 위해 일부 방법에서는 시퀀스 학습 기술을 채택합니다. 특히 이러한 방법은 비디오 인코더를 사용하여 기능을 추출하고 언어 디코더를 사용하여 시각적 텍스트 정렬을 학습합니다. 설명을 더욱 풍부하게 만들기 위해 이러한 방법은 객체 수준 표현을 활용하여 비디오의 상세한 객체 인식 상호 작용 기능을 얻습니다.

기존 아키텍처는 일반적인 비디오 캡션 방향에서 특정 결과를 달성했지만 액션 표현에는 직접 적용할 수 없습니다. 단순히 비디오 설명을 자율 주행 동작 표현으로 전송하면 자율 주행 작업에 중요한 차량 속도 등과 같은 일부 주요 정보가 손실됩니다. 이러한 다중 모드 정보를 효과적으로 활용하여 문장을 생성하는 방법은 여전히 ​​연구 중입니다. PaLM-E는 다중 모드 문장에서 잘 작동합니다.

엔드 투 엔드 자율 주행

학습 기반 자율 주행은 활발한 연구 분야입니다. 후속 FusionAD를 포함한 최근 CVPR2023 최우수 논문 UniAD와 Wayve의 World 모델 기반 작업 MILE은 모두 이 방향에서 작업됩니다. 출력 형식에는 UniAD와 같은 궤적 지점과 MILE과 같은 차량 동작이 직접 포함됩니다.

또한 일부 방법은 차량, 자전거 타는 사람, 보행자와 같은 교통 참여자의 미래 행동을 모델링하여 차량의 웨이포인트를 예측하는 반면, 다른 방법은 센서 입력을 기반으로 직접 차량의 제어 신호를 예측합니다. 이 작품

자율주행 해석

자율주행 분야에서 대부분의 해석 방법은 비전을 기반으로 하며, 일부는 LiDAR 작업을 기반으로 합니다. 일부 방법은 주의 지도를 활용하여 중요하지 않은 이미지 영역을 필터링하여 자율 차량의 동작을 합리적이고 설명 가능하게 만듭니다. 그러나 주의 지도에는 덜 중요한 영역이 포함될 수 있습니다. LiDAR와 고정밀 지도를 입력으로 사용하고, 다른 교통 참가자의 경계 상자를 예측하고, 온톨로지를 활용하여 의사 결정 추론 프로세스를 설명하는 방법도 있습니다. 추가적으로 HD 맵에 대한 의존도를 줄이기 위해 분할을 통해 온라인 맵을 구축하는 방법도 있습니다. 비전 또는 LiDAR 기반 방법은 좋은 결과를 제공할 수 있지만, 구두 설명이 부족하면 전체 시스템이 복잡해 보이고 이해하기 어려워집니다. 오프라인에서 영상 특징을 추출하여 제어 신호를 예측하고 영상 설명 작업을 수행함으로써 최초로 자율주행차의 텍스트 해석 가능성을 탐구하는 연구입니다

자율주행에서의 다중 작업 학습

최종 프레임워크 다중 작업 학습은 텍스트 생성과 제어 신호 예측이라는 두 가지 작업으로 모델을 공동으로 훈련하기 위해 채택되었습니다. 다중 작업 학습은 자율 주행에 널리 사용됩니다. 더 나은 데이터 활용과 공유 기능으로 인해 서로 다른 작업의 공동 학습은 각 작업의 성능을 향상시킵니다. 따라서 이 작업에서는 제어 신호 예측과 텍스트 생성이라는 두 가지 작업의 공동 학습이 사용됩니다.

ADAPT 방법

다음은 네트워크 구조 다이어그램입니다.

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

전체 구조는 두 가지 작업으로 나뉩니다.

  1. Driving Caption Generation(DCG): 비디오 입력, 두 문장 출력, 첫 번째 문장 Description 자동차의 동작, 두 번째 문장에서는 "신호등이 녹색으로 바뀌기 때문에 자동차가 가속하고 있습니다."와 같이 이 동작을 취한 이유를 설명합니다.
  2. 제어 신호 예측(CSP): 동일한 비디오를 입력하고 일련의 출력을 출력합니다.

그 중 DCG와 CSP의 두 가지 작업은 비디오 인코더를 공유하지만 서로 다른 예측 헤드를 사용하여 서로 다른 최종 출력을 생성합니다.

DCG 작업의 경우 비전 언어 변환기 인코더를 사용하여 두 개의 자연어 문장을 생성합니다.

CSP 작업의 경우 모션 변환 인코더를 사용하여 제어 신호의 순서를 예측합니다.

비디오 인코더

여기서 비디오 스윈 변환기는 입력 비디오 프레임을 비디오 기능 토큰으로 변환하는 데 사용됩니다.

입력 桢이미지, 모양은 , 특징의 크기는 입니다. 여기서 는 채널의 크기입니다.

Prediction Heads

텍스트 생성 헤드

위의 기능 , 토큰화 후, 차원이 있는 비디오 토큰 을 얻은 다음 MLP를 사용하여 텍스트 토큰 임베딩에 맞춰 차원을 조정한 다음 텍스트 토큰과 비디오 토큰을 비전에 공급합니다. 언어 변환기 인코더를 함께 사용하여 동작 설명과 추론을 생성합니다.

제어 신호 예측 헤드

및 입력 桢비디오는 제어 신호 에 해당합니다. 여기서 각 제어 신호는 일 수 있습니다. -속도, 가속도, 방향 등과 같은 차원. 여기서의 접근 방식은 비디오 기능을 토큰화하고 모션 변환기를 통해 일련의 출력 신호를 생성하는 것입니다. 손실 함수는 MSE입니다.

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

첫 번째 프레임이 제공하기 때문에 여기에는 첫 번째 프레임이 포함되지 않습니다. 동적 정보가 너무 적습니다.

합동 훈련

이 프레임워크에서는 공유된 비디오 인코더로 인해 실제로 CSP와 DCG의 두 가지 작업이 비디오 표현 수준에서 일치한다고 가정합니다. 출발점은 동작 설명과 제어 신호가 세밀한 차량 동작의 서로 다른 표현이며, 동작 추론 설명은 주로 차량 동작에 영향을 미치는 운전 환경에 중점을 둡니다.

합동 훈련을 활용한 훈련

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

합동 훈련 장소임에도 불구하고 추론 시 독립적으로 실행할 수 있다는 점에 유의하세요. CSP 작업은 흐름도에 따라 동영상이 직접 입력되고, 출력 제어 DCG 작업의 경우 비디오를 직접 입력하고 설명 및 추론을 출력합니다. 텍스트는 [CLS]에서 시작하여 [SEP]에 도달하는 자동 회귀 방식을 기반으로 한 단어씩 생성됩니다. 길이 임계값.

실험 설계 및 비교

Dataset

사용된 데이터 세트는 BDD-X입니다. 이 데이터 세트에는 7000개의 페어링된 비디오와 제어 신호가 포함되어 있습니다. 각 동영상은 약 40초 동안 지속되며, 이미지 크기는 , 빈도는 FPS입니다. 각 동영상에는 가속, 우회전, 합류 등 1~5가지 차량 동작이 포함되어 있습니다. 이러한 모든 행동에는 행동 내러티브(예: "자동차가 멈췄습니다")와 추론(예: "신호등이 빨간색이기 때문에")을 포함한 텍스트로 주석이 추가됩니다. 총 약 29,000개의 행동 주석 쌍이 있습니다.

구체적인 구현 세부사항

  1. 비디오 스윈 변환기는 Kinetics-600에서 사전 훈련되었습니다.
  2. 비전 언어 변환기와 모션 변환기는 무작위로 초기화됩니다.
  3. 고정된 비디오 스윈 매개변수가 없으므로 전체 훈련이 종료됩니다.
  4. 입력 비디오 프레임 크기는 크기가 조정되고 잘려지며 네트워크에 대한 최종 입력은 224x224
  5. 입니다. 설명과 추론을 위해 전체 단어 대신 WordPiece 임베딩[75]이 사용됩니다(예: "stops"는 "stop" 및 "#s"로 잘라냄), 각 문장의 최대 길이는 15
  6. 훈련 중에 마스크된 언어 모델링은 토큰의 50%를 무작위로 마스크 처리하며 각 마스크의 토큰은 80% 확률로 [MASK] 토큰이 되면 10%의 확률로 단어가 무작위로 선택되고 나머지 10%의 확률은 그대로 유지됩니다.
  7. AdamW 옵티마이저가 사용되며 훈련 단계의 처음 10%에는 워밍업 메커니즘이 있습니다
  8. 4개의 V100 GPU로 훈련하는 데 약 13시간이 걸립니다

합동 훈련의 영향

여기에서는 공동 훈련의 효과를 설명하기 위해 세 가지 실험을 비교합니다.

Single

은 CSP 작업을 제거하고 DCG 작업만 유지하는 것을 의미하며, 이는

Single+

CSP만 훈련하는 것과 같습니다. 태스크는 아직 존재하지 않지만 DCG 모듈 입력 시 비디오 태그 외에 제어 신호 태그도 입력해야 합니다

효과 비교는 다음과 같습니다

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

DCG 태스크만 비교했을 때 ADAPT의 추론 효과가 훨씬 좋아집니다. 제어 신호 입력이 있으면 효과가 향상되지만 여전히 CSP 작업을 추가하는 효과만큼 좋지 않습니다. CSP 과제를 추가한 후 영상을 표현하고 이해하는 능력이 더욱 강해졌습니다

또한 아래 표를 보면 CSP에 대한 합동 훈련의 효과도 향상되었음을 알 수 있습니다.

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

여기 는 다음과 같이 이해될 수 있습니다. 정확도, 구체적으로는 예측된 제어 신호를 잘라내고 수식은 다음과 같습니다

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

다양한 제어 신호 유형의 영향

실험에서 사용된 기본 신호는 속도와 방향입니다. 그러나 실험 결과, 두 신호 중 하나만 사용하는 경우 두 신호를 동시에 사용하는 것만큼 효과가 좋지 않은 것으로 나타났습니다. 구체적인 데이터는 다음 표에 나와 있습니다. 속도와 방향이 네트워크에 도움이 될 수 있습니다. 더 나은 학습 동작 설명 및 추론

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색동작 설명과 추론의 상호 작용

일반 설명 작업과 비교하여 운전 설명 작업 생성은 두 문장, 즉 동작 설명과 추론입니다. 다음 표에서 확인할 수 있습니다.

1행과 3행은 교차 주의를 사용하는 효과가 더 우수함을 나타내며, 이는 설명을 기반으로 한 추론이 모델 훈련에 유익함을 나타냅니다. 추론 교환도 설명과 설명의 순서가 틀려 추론이 설명에 달려 있음을 보여줍니다.

다음 세 줄을 비교하면 설명만 출력하는 것과 추론만 출력하는 것이 둘 다 출력하는 것만큼 좋지 않습니다.

  1. 샘플링 속도의 영향
  2. 이러한 결과는 추측할 수 있습니다. 더 많은 프레임을 사용할수록 결과는 좋아지지만, 다음 표와 같이 해당 속도도 느려집니다.

새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색

필수 재작성된 내용은 다음과 같습니다. 원본 링크: https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ

위 내용은 새 제목: ADAPT: 엔드투엔드 자율 주행 설명 가능성에 대한 예비 탐색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? 자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? Jan 17, 2024 pm 02:57 PM

위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? 자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 Jan 26, 2024 am 11:18 AM

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 ​​포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Mar 06, 2024 pm 05:34 PM

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! 자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 Feb 20, 2024 am 11:48 AM

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다! nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다! Apr 17, 2024 pm 06:22 PM

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 ​​단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

See all articles