VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합
arXiv 논문 "VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합", 2022년 8월 9일, Tsinghua University에서 작업.
도로 요원의 미래 행동을 예측하는 것은 자율 주행의 핵심 작업입니다. 기존 모델이 에이전트의 미래 행동을 예측하는 데 큰 성공을 거두었지만 여러 에이전트의 조정된 행동을 효과적으로 예측하는 것은 여전히 어려운 과제로 남아 있습니다. 최근 누군가가 점유 그리드와 흐름의 조합을 통해 도로 요원의 공동 미래 상태를 나타내는 점유 흐름 필드(OFF) 표현을 제안하여 공동으로 일관된 예측을 지원합니다.
이 연구에서는 새로운 점유 흐름 필드 예측기, 래스터화된 교통 이미지로부터 특징을 학습하는 이미지 인코더, 연속적인 에이전트 궤적 및 지도 상태 정보를 캡처하는 벡터 인코더를 제안합니다. 이 두 가지를 결합하여 정확한 점유 및 흐름 예측을 생성합니다. 두 가지 인코딩 기능은 최종 예측을 생성하기 전에 여러 주의 모듈에 의해 융합됩니다. 이 모델은 Waymo Open Dataset Occupancy and Flow Prediction Challenge에서 3위를 차지했으며 폐색된 점유 및 흐름 예측 작업에서 최고의 성능을 달성했습니다.
OFF 표현("Occupancy Flow Fields for Motion Forecasting in Autonomous Driving", arXiv 2203.03875, 3, 2022)은 각 그리드 셀에 i) 에이전트가 셀을 점유할 확률과 ii)가 포함된 시공간 그리드입니다. 유닛을 점유한 에이전트의 이동 흐름을 나타냅니다. 점유 흐름 필드를 예측하는 계산 복잡도는 현장의 도로 에이전트 수와 무관하기 때문에 더 나은 효율성과 확장성을 제공합니다.
사진에 보이는 것처럼 OFF 프레임 다이어그램입니다. 인코더 구조는 다음과 같습니다. 첫 번째 단계에서는 세 가지 유형의 입력 포인트를 모두 수신하고 PointPillars에서 영감을 받은 인코더로 처리합니다. 신호등과 도로 지점은 그리드에 직접 배치됩니다. 각 입력 시간 단계 t에서 에이전트의 상태 인코딩은 각 에이전트 BEV 상자에서 고정 크기 포인트 그리드를 균일하게 샘플링하고 이러한 포인트를 배치된 관련 에이전트 상태 속성(시간 t의 원-핫 인코딩 포함)과 결합하는 것입니다. 그리드에. 각 기둥은 포함된 모든 포인트에 대한 임베딩을 출력합니다. 디코더의 구조는 다음과 같습니다. 두 번째 수준은 각 기둥 삽입을 입력으로 받고 그리드 셀 점유 및 흐름 예측을 생성합니다. 디코더 네트워크는 EfficientNet을 기반으로 하며 EfficientNet을 백본으로 사용하여 각 기둥 임베딩을 처리하여 특징 맵(P2,...P7)을 얻습니다. 여기서 Pi는 입력에서 2^i로 다운샘플링됩니다. BiFPN 네트워크는 이러한 다중 규모 기능을 양방향 방식으로 융합하는 데 사용됩니다. 그런 다음 최고 해상도 특징 맵 P2를 사용하여 모든 시간 단계에서 모든 에이전트 클래스 K에 대한 점유 및 흐름 예측을 회귀합니다. 구체적으로 디코더는 점유율과 흐름을 예측하면서 각 그리드 셀에 대한 벡터를 출력합니다.
이 기사에서는 다음과 같은 문제 설정이 이루어졌습니다. 장면의 교통 에이전트의 1초 기록과 지도 좌표와 같은 장면 컨텍스트를 바탕으로 목표는 i) 미래에 관찰된 점유, ii) 미래 폐색 점유율, iii) 각 웨이포인트가 1초 간격을 포함하는 시나리오에서 미래의 8개 웨이포인트에서 모든 차량의 미래 흐름.
입력을 래스터화된 이미지와 벡터 세트로 처리합니다. 이미지를 얻기 위해 관측 에이전트의 궤적과 지도 데이터를 바탕으로 자율주행차(SDC)의 로컬 좌표를 기준으로 과거의 각 시간 단계에서 래스터화된 그리드가 생성됩니다. 래스터화된 이미지와 일치하는 벡터화된 입력을 얻기 위해 SDC의 로컬 뷰를 기준으로 입력 에이전트와 지도 좌표를 회전하고 이동하는 동일한 변환이 수행됩니다.
인코더는 래스터화된 표현을 인코딩하는 VGG-16 모델과 벡터화된 표현을 인코딩하는 VectorNe 모델의 두 부분으로 구성됩니다. 벡터화된 특징은 교차 주의 모듈을 통해 VGG-16의 마지막 두 단계의 특징과 융합됩니다. FPN 스타일 네트워크를 통해 융합된 기능은 원래 해상도로 업샘플링되고 입력 래스터화된 기능으로 사용됩니다.
Decoder는 인코더 출력을 점유 흐름 필드 예측에 매핑하는 단일 2D 컨벌루션 레이어입니다. 이는 다음 8초 동안 각 시간 단계에 대한 점유 및 흐름 예측을 나타내는 일련의 8개 그리드 맵으로 구성됩니다.
사진에 표시된 대로:
torchvision의 표준 VGG-16 모델을 래스터화 인코더로 사용하고 VectorNet(코드https://github.com/Tsinghua-MARS-Lab/DenseTNT) 구현을 따릅니다. VectorNet에 대한 입력은 i) B×Nr×9 모양의 도로 요소 벡터 세트로 구성됩니다. 여기서 B는 배치 크기이고 Nr=10000은 도로 요소 벡터의 최대 수이며 마지막 차원 9는 각 벡터를 나타냅니다. 벡터 ID 두 끝점의 위치(x, y) 및 방향(cosθ, sinθ) ii) 장면에 있는 최대 128개 에이전트의 벡터를 포함하는 B×1280×9 모양의 에이전트 벡터 세트, 여기서 각 에이전트는 관찰 위치에서 10개의 벡터를 갖습니다.
VectorNet에 따라 먼저 각 교통 요소의 ID를 기반으로 로컬 지도를 실행한 다음 모든 로컬 기능에 대해 글로벌 지도를 실행하여 B×128×N 모양의 벡터화된 기능을 얻습니다. 여기서 N은 총 교통 요소 수입니다. , 도로 요소 및 지능을 포함합니다. 특징의 크기는 MLP 계층을 통해 4배 더 증가하여 최종 벡터화된 특징 V를 얻습니다. 그 모양은 B × 512 × N이고 특징 크기는 이미지 특징의 채널 크기와 일치합니다.
각 VGG 레벨의 출력 특징은 입력 이미지와 512개의 숨겨진 차원을 기준으로 {C1, C2, C3, C4, C5}로 표시되며 스트라이드는 {1, 2, 4, 8, 16} 픽셀입니다. . 벡터화된 특징 V는 크로스 어텐션 모듈을 통해 B×512×16×16 모양의 래스터화된 이미지 특징 C5와 융합되어 동일한 모양의 F5를 얻습니다. Cross attention의 쿼리 항목은 256개 토큰을 포함하는 B×512×256 모양으로 평면화된 이미지 특징 C5이고, Key 및 Value 항목은 N 토큰을 포함하는 벡터화된 특징 V입니다.
그런 다음 채널 차원에서 F5와 C5를 연결하고 두 개의 3×3 컨벌루션 레이어를 통과하여 B×512×16×16 모양의 P5를 얻습니다. P5는 FPN 방식의 2×2 업샘플링 모듈을 통해 업샘플링되고 C4(B×512×32x32)와 연결되어 C4와 동일한 형태의 U4를 생성한다. 그런 다음 Cross-attention을 포함한 동일한 절차에 따라 V와 U4 사이에 또 다른 융합 라운드가 수행되어 P4(B × 512 × 32 × 32)를 얻습니다. 마지막으로 P4는 FPN 스타일 네트워크에 의해 점진적으로 업샘플링되고 {C3, C2, C1}과 연결되어 B×512×256×256 형태의 EP1을 생성합니다. 두 개의 3×3 컨벌루션 레이어를 통해 P1을 전달하여 B×128×256 모양의 최종 출력 특징을 얻습니다.
디코더는 입력 채널 크기가 128이고 출력 채널 크기가 32(8 웨이포인트 × 4 출력 차원)인 단일 2D 컨벌루션 레이어입니다.
결과는 다음과 같습니다.
위 내용은 VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











지능형 앱 제어는 랜섬웨어나 스파이웨어와 같이 데이터를 손상시킬 수 있는 승인되지 않은 앱으로부터 PC를 보호하는 데 도움이 되는 Windows 11의 매우 유용한 도구입니다. 이 문서에서는 스마트 앱 컨트롤이 무엇인지, 어떻게 작동하는지, Windows 11에서 켜거나 끄는 방법을 설명합니다. Windows 11의 스마트 앱 제어란 무엇입니까? SAC(스마트 앱 제어)는 Windows 1122H2 업데이트에 도입된 새로운 보안 기능입니다. Microsoft Defender 또는 타사 바이러스 백신 소프트웨어와 함께 작동하여 장치 속도를 늦추거나 예상치 못한 광고를 표시하거나 기타 예상치 못한 작업을 수행할 수 있는 잠재적으로 불필요한 앱을 차단합니다. 스마트 애플리케이션

이렇게 강력한 AI 모방 능력을 가지고 있다면, 막는 것은 사실상 불가능합니다. 이제 AI의 발전이 이 정도 수준에 이르렀나? 앞발은 이목구비를 날리게 하고, 뒷발은 쳐다보는 것, 눈썹을 치켜올리는 것, 삐죽이는 것 등 아무리 과장된 표정이라도 완벽하게 흉내낸다. 난이도를 높이고, 눈썹을 더 높이 올리고, 눈을 크게 뜨고, 입 모양까지 비뚤어지게 표현하는 등 가상 캐릭터 아바타가 표정을 완벽하게 재현할 수 있다. 왼쪽의 매개변수를 조정하면 오른쪽의 가상 아바타도 그에 따라 움직임을 변경하여 입과 눈을 클로즈업하여 모방이 완전히 동일하다고는 할 수 없으며 표정만 정확합니다. 마찬가지다(맨 오른쪽). 이 연구는 GaussianAvatars를 제안하는 뮌헨 기술 대학과 같은 기관에서 나왔습니다.

이 글은 자율주행하트 공개 계정의 허가를 받아 재인쇄되었습니다. 재인쇄를 원하시면 출처에 문의해 주세요. 원제: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 논문 링크: https://arxiv.org/pdf/2309.16534.pdf 저자 소속: Waymo 컨퍼런스: ICCV2023 논문 아이디어: 자율 차량 안전 계획을 위해 미래 행동을 안정적으로 예측 도로요원의 역할이 중요합니다. 본 연구는 연속적인 궤적을 개별 모션 토큰의 시퀀스로 표현하고 다중 에이전트 모션 예측을 언어 모델링 작업으로 처리합니다. 우리가 제안하는 모델인 MotionLM은 다음과 같은 장점을 가지고 있습니다.

"ComputerWorld" 잡지는 IBM이 엔지니어가 필요한 수학 공식을 작성한 다음 이를 제출하면 프로그래밍이 종료되도록 하는 새로운 언어 FORTRAN을 개발했기 때문에 "프로그래밍은 1960년에 사라질 것"이라는 기사를 쓴 적이 있습니다. 몇 년 후 우리는 비즈니스 용어를 사용하여 문제를 설명하고 컴퓨터에 COBOL이라는 프로그래밍 언어를 사용하면 더 이상 프로그래머가 필요하지 않다는 새로운 말을 들었습니다. 이후 IBM은 직원들이 양식을 작성하고 보고서를 생성할 수 있는 RPG라는 새로운 프로그래밍 언어를 개발해 회사의 프로그래밍 요구 사항 대부분을 이를 통해 완료할 수 있다고 합니다.

휴머노이드 로봇은 높이 1.65미터, 무게 55킬로그램, 몸의 자유도가 44도입니다. 빠르게 걷고, 장애물을 빠르게 피하고, 경사면을 꾸준히 오르락내리락하고, 충격 간섭에 저항할 수 있습니다. 푸리에 인텔리전스(Fourier Intelligence)의 만능 휴머노이드 로봇 GR-1이 사전 판매를 시작했습니다. 로봇 강당 푸리에 인텔리전스(Fourier Intelligence)의 만능 휴머노이드 로봇 푸리에GR-1(FourierGR-1)이 사전 판매를 시작했습니다. GR-1은 고도의 생체공학적 몸통 구성과 의인화된 모션 제어 기능을 갖추고 있으며, 몸 전체가 44도의 자유도를 갖고 있으며, 걷기, 장애물 회피, 장애물 건너기, 경사면 오르내리기, 간섭 저항 및 다양한 도로 적응 능력을 갖추고 있습니다. 표면. 그것은 일반적인 인공 지능 시스템입니다. 공식 웹사이트 사전 판매 페이지: www.fftai.cn/order#FourierGR-1# 푸리에 인텔리전스를 다시 작성해야 합니다.

최근 화웨이는 Xuanji 감지 시스템을 탑재한 새로운 스마트 웨어러블 제품을 9월에 출시할 예정이라고 발표했는데, 이는 화웨이의 최신 스마트 워치가 될 것으로 예상됩니다. 이 신제품은 고급 감정 건강 모니터링 기능을 통합하여 사용자에게 정확성, 포괄성, 속도, 유연성, 개방성 및 확장성의 6가지 특성을 갖춘 포괄적인 건강 평가를 제공합니다. 이 시스템은 슈퍼 센싱 모듈을 사용하고 다중 채널 광학 경로 아키텍처 기술을 최적화하여 심박수, 혈중 산소 및 호흡수와 같은 기본 지표의 모니터링 정확도를 크게 향상시킵니다. 또한 Xuanji Sensing System은 심박수 데이터를 기반으로 감정 상태에 대한 연구를 확장했으며, 생리적 지표에 국한되지 않고 사용자의 감정 상태와 스트레스 수준도 평가할 수 있습니다. 60개 이상의 스포츠에 대한 모니터링을 지원합니다. 심혈관, 호흡기, 신경, 내분비,

궤적 예측은 지난 2년 동안 추진력을 얻었지만 대부분은 차량 궤적 예측의 방향에 중점을 두고 있습니다. 오늘날 자율 주행 심장은 제한된 시나리오에서 인간의 보행자 궤적 예측을 위한 알고리즘인 NeurIPS를 공유합니다. 움직임 패턴은 일반적으로 어느 정도 제한된 규칙을 따릅니다. SHENet은 이러한 가정을 바탕으로 암묵적인 장면 규칙을 학습하여 사람의 미래 궤적을 예측합니다. 이 기사는 자율주행하트의 원본임을 인정받았습니다! 저자의 개인적 이해는 현재 사람의 미래 궤적을 예측하는 것이 인간 움직임의 무작위성과 주관성으로 인해 여전히 어려운 문제라는 것입니다. 그러나 제한된 장면에서 인간의 움직임 패턴은 장면 제약(예: 평면도, 도로 및 장애물)과 인간 대 인간 또는 인간 대 객체 상호 작용으로 인해 달라지는 경우가 많습니다.

01 스케이트보드 섀시란 무엇입니까? 스케이트보드 섀시란 배터리, 전동변속기, 서스펜션, 브레이크 등의 부품을 섀시에 미리 일체화하여 차체와 섀시를 분리하고 디자인을 분리한 것입니다. 이러한 유형의 플랫폼을 기반으로 자동차 회사는 초기 R&D 및 테스트 비용을 크게 절감하는 동시에 다양한 모델을 만들기 위한 시장 수요에 신속하게 대응할 수 있습니다. 특히 무인 운전 시대에는 자동차의 레이아웃이 더 이상 운전 중심이 아닌 공간 속성에 중점을 둘 것입니다. 스케이트보드형 섀시는 상부 캐빈의 개발에 더 많은 가능성을 제공할 수 있습니다. 위 사진에서 보듯이 물론 스케이트보드 섀시를 봤을 때, 처음 떠올랐을 때 "아, 무부하 바디다"라는 첫인상에 얽매여서는 안 됩니다. 그 당시에는 전기차가 없었기 때문에 수백 킬로그램에 달하는 배터리 팩도 없었고, 스티어링 컬럼을 없앨 수 있는 스티어링 바이 와이어 시스템도, 브레이크 바이 와이어 시스템도 없었습니다.
