Berkeley는 주차 시나리오에서 최초의 고화질 데이터 세트 및 예측 모델을 오픈 소스화하여 목표 인식 및 궤적 예측을 지원합니다.
자율주행 기술이 계속해서 반복되면서 차량의 거동과 궤도 예측은 효율적이고 안전한 운전을 위해 매우 중요한 의미를 갖습니다. 동적 모델 추론, 접근성 분석과 같은 전통적인 궤적 예측 방법은 명확한 형태와 강력한 해석 가능성의 장점을 가지고 있지만, 환경과 객체 간의 상호 작용에 대한 모델링 능력은 복잡한 교통 환경에서 상대적으로 제한됩니다. 따라서 최근에는 다양한 딥러닝 기법(LSTM, CNN, Transformer, GNN 등)과 BDD100K, nuScenes, Stanford Drone, ETH 등 다양한 데이터셋을 기반으로 한 많은 연구와 응용이 이루어지고 있다. /UCY, INTERACTION, ApolloScape 등도 등장하여 심층 신경망 모델을 훈련하고 평가하는 데 강력한 지원을 제공합니다. GroupNet, Trajectron++, MultiPath 등과 같은 많은 SOTA 모델이 좋은 성능을 보여주었습니다.
위의 모델과 데이터 세트는 일반적인 도로 주행 시나리오에 집중되어 있으며, 교통 규제, 이동 패턴의 한계로 인해 차선 및 신호등과 같은 인프라와 기능을 최대한 활용합니다. 대부분의 차량도 더 명확합니다. 그러나 자율 주행의 "라스트 마일"인 자율 주차 시나리오에서 우리는 많은 새로운 어려움에 직면하게 될 것입니다.
- 주차장의 교통 규칙 및 차선 요구 사항이 엄격하지 않으며 차량이 마음대로 자주 운전합니다. 그리고 "지름길 잡기"
- 주차 작업을 완료하려면 차량이 잦은 후진, 주차, 조향 등을 포함하여 더욱 복잡한 주차 작업을 완료해야 합니다. 초보 운전자의 경우 주차 시간이 길어질 수 있습니다
- 주차장에는 장애물과 혼잡함이 많고, 차량 간 거리가 가까워 조금만 부주의하면 충돌 및 긁힘이 발생할 수 있습니다
-
주차 보행자는 마음대로 행사장을 통과하는 경우가 많으며 차량에는 더 많은 회피 조치가 필요합니다
이러한 시나리오에서는 단순히 기존 궤적 예측 모델을 적용하여 원하는 효과를 얻기 어렵고 재훈련 모델은 해당 데이터의 지원이 부족합니다. . CNRPark+EXT 및 CARPK와 같은 현재 주차 장면 기반 데이터 세트는 무료 주차 공간 감지용으로만 설계되었습니다. 사진은 감시 카메라의 1인칭 시점에서 나온 것이며 샘플링 속도가 낮고 폐색이 많아 주차 공간 감지가 불가능합니다. 궤적 예측에 사용됩니다.
2022년 10월에 막 종료된 제25회 지능형 교통 시스템에 관한 IEEE 국제 회의(IEEE ITSC 2022)에서 캘리포니아 대학교 버클리 연구진이 주차 장면과 관련된 최초의 고화질 영상을 공개했습니다. 궤적 데이터 세트를 기반으로 CNN과 Transformer 아키텍처를 사용하여 "ParkPredict+"라는 궤적 예측 모델을 제안했습니다.
- 문서 링크: https://arxiv.org/abs/2204.10777
- 데이터 세트 홈 페이지, 평가판 및 다운로드 애플리케이션: https://sites.google.com /berkeley.edu/dlp-dataset (액세스할 수 없는 경우 대체 페이지 https://www.php.cn/link/966eaa9527eb956f0dc8788132986707을 시도할 수 있습니다.)
- Dataset Python API: https://github. com/MPC-Berkeley/dlp-dataset
데이터 세트 정보
데이터 세트는 드론으로 수집되었으며 총 지속 시간은 3.5시간, 비디오 해상도는 4K, 샘플링 속도는 25Hz입니다. 전망은 약 140m x 80m의 주차장 면적과 총 약 400개의 주차 공간을 포함합니다. 데이터 세트에는 정확하게 주석이 추가되었으며 총 1216대의 자동차, 3904대의 자전거, 3904개의 보행자 궤적이 수집되었습니다.
재처리 후 궤도 데이터를 JSON 형식으로 읽을 수 있으며 연결 그래프(Graph)의 데이터 구조에 로드할 수 있습니다.
- 개별(Agent): 각 에이전트(Agent)는 현재 장면(Scene)에서 움직이는 객체로, 기하학적 형태, 유형 등의 속성을 가지며, 그 이동 궤적은 인스턴스(Instance)로 저장됩니다. (연결된 목록)
- 인스턴스: 각 인스턴스는 위치, 회전 각도, 속도 및 가속도를 포함하여 프레임(Frame) 내 개인(에이전트)의 상태입니다. 각 인스턴스에는 이전 프레임과 다음 프레임에 있는 개인의 인스턴스에 대한 포인터가 포함되어 있습니다.
- 프레임(프레임): 각 프레임(프레임)은 현재 시간(인스턴스)에 표시되는 모든 인스턴스를 포함하는 샘플링 지점입니다. 그리고 이전 프레임과 다음 프레임을 가리키는 포인터
- Obstacle(장애물): 장애물은 각 개체의 위치, 모서리 및 기하학적 크기를 포함하여 이 기록에서 전혀 움직이지 않은 개체입니다.
- Scene: 각 장면(Scene)은 녹화의 첫 번째 프레임과 마지막 프레임, 모든 개인(에이전트) 및 모든 장애물(장애물)을 가리키는 포인터를 포함하는 녹화된 비디오 파일에 해당합니다.
데이터 세트를 사용할 수 있습니다. 두 가지 다운로드 형식:
JSON 전용(권장) : JSON 파일에는 모든 개인의 유형, 형태, 궤적 및 기타 정보가 포함되어 있으며 오픈 소스 Python을 통해 다운로드할 수 있습니다. API가 직접 읽습니다. , 미리보기 및 의미론적 이미지(Semantic Images)를 생성합니다. 연구 목표가 단지 궤적과 행동 예측이라면 JSON 형식은 모든 요구를 충족할 수 있습니다.
원본 영상 및 주석: 연구가 카메라의 원시 이미지(Raw Image)를 기반으로 표적 탐지, 분리, 추적 등 머신 비전 분야 주제를 기반으로 하는 경우, 그런 다음 원본 비디오와 라벨을 다운로드해야 할 수도 있습니다. 이것이 필요한 경우 데이터세트 애플리케이션에 연구 내용을 명확하게 설명해야 합니다. 또한 주석 파일은 자체적으로 구문 분석되어야 합니다.
행동 및 궤적 예측 모델: ParkPredict+
적용 사례로 연구팀은 IEEE ITSC 2022에서 "ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer" 논문에서 이 데이터를 활용했습니다. CNN과 Transformer 아키텍처를 기반으로 주차장 장면에서 차량의 의도(Intent)와 궤적(Trajectory) 예측을 구현합니다.
팀은 CNN 모델을 활용해 의미론적 이미지 구축을 통해 차량 의도(Intent)의 분포 확률을 예측했습니다. 이 모델은 차량의 로컬 환경 정보만 구성하면 되며, 현재 환경에 따라 사용 가능한 의도의 수를 지속적으로 변경할 수 있습니다.
팀은 Transformer 모델을 개선하고 다중 모드 의도 및 행동 예측을 달성하기 위한 입력으로 의도 예측 결과, 차량의 이동 이력 및 주변 환경의 의미 지도를 제공했습니다.
요약
- 주차 시나리오를 위한 최초의 고정밀 데이터 세트인 DLP(Dragon Lake Parking) 데이터 세트는 이 분야에서 대규모 대상 인식 및 추적, 무료 주차 공간 감지, 차량 및 보행자 행동 및 궤적을 지원할 수 있습니다. 시나리오 예측, 모방 학습 및 기타 연구를 위한 데이터 및 API 지원이 제공됩니다.
- CNN 및 Transformer 아키텍처를 사용하여 ParkPredict+ 모델은 주차 시나리오에서 행동 및 궤적 예측에 우수한 기능을 보여줍니다.
- 드래곤 레이크 주차장(DLP) 데이터세트는 시험 및 적용을 위해 열려 있습니다. 데이터세트 홈페이지 https://sites.google.com/berkeley.edu/dlp-dataset를 방문하여 자세히 알아볼 수 있습니다(액세스할 수 없는 경우 대체 페이지를 사용해 볼 수 있습니다 https://www.php.cn/link/966eaa9527eb956f0dc8788132986707)
위 내용은 Berkeley는 주차 시나리오에서 최초의 고화질 데이터 세트 및 예측 모델을 오픈 소스화하여 목표 인식 및 궤적 예측을 지원합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











텍스트 주석은 텍스트의 특정 내용에 해당하는 레이블이나 태그를 추가하는 작업입니다. 주요 목적은 특히 인공 지능 분야에서 더 심층적인 분석 및 처리를 위해 텍스트에 추가 정보를 제공하는 것입니다. 텍스트 주석은 인공 지능 애플리케이션의 지도형 기계 학습 작업에 매우 중요합니다. 자연어 텍스트 정보를 보다 정확하게 이해하고 텍스트 분류, 감정 분석, 언어 번역 등의 작업 성능을 향상시키기 위해 AI 모델을 훈련하는 데 사용됩니다. 텍스트 주석을 통해 우리는 AI 모델이 텍스트의 개체를 인식하고, 맥락을 이해하고, 새로운 유사한 데이터가 나타날 때 정확한 예측을 하도록 가르칠 수 있습니다. 이 기사에서는 주로 더 나은 오픈 소스 텍스트 주석 도구를 권장합니다. 1.라벨스튜디오https://github.com/Hu

이미지 주석은 이미지 콘텐츠에 더 깊은 의미와 설명을 제공하기 위해 이미지에 레이블이나 설명 정보를 연결하는 프로세스입니다. 이 프로세스는 비전 모델을 훈련하여 이미지의 개별 요소를 보다 정확하게 식별하는 데 도움이 되는 기계 학습에 매우 중요합니다. 이미지에 주석을 추가함으로써 컴퓨터는 이미지 뒤의 의미와 맥락을 이해할 수 있으므로 이미지 내용을 이해하고 분석하는 능력이 향상됩니다. 이미지 주석은 컴퓨터 비전, 자연어 처리, 그래프 비전 모델 등 다양한 분야를 포괄하여 차량이 도로의 장애물을 식별하도록 지원하는 등 광범위한 애플리케이션을 보유하고 있습니다. 의료영상인식을 통한 질병진단. 이 기사에서는 주로 더 나은 오픈 소스 및 무료 이미지 주석 도구를 권장합니다. 1.마케센스

DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

얼굴 검출 및 인식 기술은 이미 상대적으로 성숙하고 널리 사용되는 기술입니다. 현재 가장 널리 사용되는 인터넷 응용 언어는 JS입니다. 웹 프런트엔드에서 얼굴 감지 및 인식을 구현하는 것은 백엔드 얼굴 인식에 비해 장점과 단점이 있습니다. 장점에는 네트워크 상호 작용 및 실시간 인식이 줄어 사용자 대기 시간이 크게 단축되고 사용자 경험이 향상된다는 단점이 있습니다. 모델 크기에 따라 제한되고 정확도도 제한됩니다. js를 사용하여 웹에서 얼굴 인식을 구현하는 방법은 무엇입니까? 웹에서 얼굴 인식을 구현하려면 JavaScript, HTML, CSS, WebRTC 등 관련 프로그래밍 언어 및 기술에 익숙해야 합니다. 동시에 관련 컴퓨터 비전 및 인공지능 기술도 마스터해야 합니다. 웹 측면의 디자인으로 인해 주목할 가치가 있습니다.
