르쿤, 자율주행 유니콘 사기에 깊은 실망-일체 포함-php.cn

GAIA-1은 다양한 모드를 갖춘 생성적 세계 모델입니다.

웨이브는 누구인가요?

집

기술 주변기기

일체 포함

르쿤, 자율주행 유니콘 사기에 깊은 실망

PHPz

Oct 06, 2023 pm 02:33 PM

자율주행 비전 테슬라

이것이 평범한 자율주행 영상이라고 생각하시나요?

르쿤, 자율주행 유니콘 사기에 깊은 실망 사진

이 내용은 원래 의미를 바꾸지 않고 중국어로 다시 작성해야 합니다.

단 한 프레임도 "진짜"가 아닙니다.

르쿤, 자율주행 유니콘 사기에 깊은 실망 Pictures

다양한 도로 상황, 다양한 기상 조건, 20개 이상의 상황을 시뮬레이션할 수 있으며 효과는 실제와 같습니다.

르쿤, 자율주행 유니콘 사기에 깊은 실망 Pictures

세계 모델이 또 멋진 일을 해냈습니다! 이를 본 르쿤은 열성적으로 리트윗했다.

르쿤, 자율주행 유니콘 사기에 깊은 실망 Pictures

위의 효과에 따르면 이것은 최신 버전의 GAIA-1에서 가져온 것입니다.

이 프로젝트의 규모는 4700시간의 운전 비디오 교육을 통해 90억 매개변수에 도달했습니다. 텍스트나 작업에서 자율주행 영상을 생성할 때 가장 직접적인 이점은 미래 사건을 더 잘 예측할 수 있고 20개 이상의 시나리오를 시뮬레이션할 수 있어 자율주행의 안전성이 더욱 향상되고 비용이 절감된다는 것입니다.

Pictures 르쿤, 자율주행 유니콘 사기에 깊은 실망 저희 크리에이티브 팀은 이것이 자율주행 게임의 규칙을 완전히 바꿀 것이라고 직설적으로 밝혔습니다!

그럼 GAIA-1은 어떻게 구현되나요?

규모가 클수록 좋습니다.

GAIA-1은 다양한 모드를 갖춘 생성적 세계 모델입니다.

비디오, 텍스트 및 동작을 입력으로 활용하여 시스템은 사실적인 운전 장면 비디오를 생성하고 자율적으로 제어할 수 있습니다. 차량에 대한 미세 제어 동작 및 장면 특성

텍스트 프롬프트만 사용하여 동영상을 생성할 수 있음

그림 르쿤, 자율주행 유니콘 사기에 깊은 실망 모델 원리는 대규모 언어 모델과 유사합니다. 즉, 다음 토큰을 예측합니다.

모델은 벡터 양자화 표현을 활용할 수 있습니다. 이산화 비디오 프레임을 수집하고 미래 장면을 예측하는 것은 시퀀스의 다음 토큰을 예측하는 것으로 변환됩니다. 그런 다음 확산 모델을 사용하여 세계 모델의 언어 공간에서 고품질 비디오를 생성합니다.

구체적인 단계는 다음과 같습니다.

그림 르쿤, 자율주행 유니콘 사기에 깊은 실망 첫 번째 단계는 이해하기 쉽습니다. 즉, 다양한 입력을 기록하고 정렬하고 결합하는 것입니다.

특수 인코더를 사용하여 다양한 입력을 인코딩하고 다양한 입력을 공유 표현으로 투영합니다. 텍스트 및 비디오 인코더는 입력을 분리하고 포함하는 반면, 작동 표현은 공유 표현으로 개별적으로 투영됩니다.

이러한 인코딩된 표현은 시간적으로 일관됩니다.

정리를 마치면 세계모델의 핵심부분이 등장합니다.

자동 회귀 변환기로서 시퀀스의 다음 이미지 토큰 세트를 예측할 수 있습니다. 그리고 이전 이미지 토큰을 고려할 뿐만 아니라 텍스트 및 작업의 맥락 정보도 고려합니다.

모델이 생성한 콘텐츠는 이미지의 일관성을 유지할 뿐만 아니라 예상되는 텍스트 및 동작과도 일치합니다.

팀에서는 GAIA-1의 월드 모델 크기가 65억 매개변수이며 64개로 학습되었다고 소개했습니다. 15일 동안 A100이 됩니다.

마지막으로 비디오 디코더와 비디오 확산 모델을 사용하여 이러한 토큰을 다시 비디오로 변환합니다.

이 단계의 중요성은 비디오의 의미 품질, 이미지 정확성 및 시간적 일관성을 보장하는 것입니다.

GAIA-1의 비디오 디코더는 26억 개의 매개변수 규모를 가지며 32개의 A100을 사용하여 15일 동안 훈련되었습니다.

GAIA-1은 대규모 언어 모델의 원리와 유사할 뿐만 아니라 모델 규모가 확장됨에 따라 생성 품질이 향상되는 특성을 보여준다는 점을 언급할 가치가 있습니다

Pictures 르쿤, 자율주행 유니콘 사기에 깊은 실망 팀에서 검토한 내용은 다음과 같습니다. 6월 이전에 출시된 초기 버전과 최신 효과를 비교해봤습니다

후자가 전자보다 480배 커졌습니다.

영상 디테일과 해상도가 대폭 향상되었음을 직관적으로 확인하실 수 있습니다.

Pictures 르쿤, 자율주행 유니콘 사기에 깊은 실망 실용적인 관점에서 GAIA-1의 출현은 자율주행의 규칙을 바꿀 것이라고 말했습니다

르쿤, 자율주행 유니콘 사기에 깊은 실망 사진

그 이유는 세 가지 측면에서 설명할 수 있습니다.

안전
종합적인 훈련 데이터
롱테일 시나리오

우선 보안 측면에서 월드 모델은 미래를 시뮬레이션할 수 있으며, 자율주행의 안전에 매우 중요한 스스로 결정을 내릴 수 있는 능력을 AI에 부여합니다.

둘째, 자율주행에는 훈련 데이터도 매우 중요합니다. 생성된 데이터는 더욱 안전하고 비용 효율적이며 무한히 확장 가능합니다.

제너레이티브 AI는 자율 주행이 직면한 롱테일 시나리오 문제 중 하나를 해결할 수 있습니다. 안개가 낀 날씨에 길을 건너는 보행자를 만나는 등 더 많은 엣지 시나리오를 처리할 수 있습니다. 이를 통해 자율주행 역량이 더욱 향상될 것입니다

웨이브는 누구인가요?

GAIA-1은 영국의 자율주행 스타트업 Wayve가 개발했습니다.

Wayve는 2017년에 설립되었습니다. 투자자로는 Microsoft 등이 있으며, 그 가치는 유니콘에 도달했습니다.

창립자는 Alex Kendall과 Amar Shah이며 둘 다 케임브리지 대학교에서 기계 학습 박사 학위를 취득했습니다.

르쿤, 자율주행 유니콘 사기에 깊은 실망 Pictures

Tesla와 마찬가지로 기술적인 측면에서 Wayve는 카메라 사용을 옹호합니다. 순전히 시각적 솔루션인 고정밀 지도를 아주 일찍 포기하고 "실시간 인식" 경로를 확고히 따랐습니다.

얼마 전 팀이 출시한 또 다른 대형 모델 LINGO-1도 큰 관심을 끌었습니다

이 자율 주행 모델은 운전 중에 실시간으로 설명을 생성할 수 있어 모델의 해석력이 더욱 향상됩니다

올해 3월에는 , 빌 게이츠도 웨이브의 자율주행차를 시험 운전했다.

르쿤, 자율주행 유니콘 사기에 깊은 실망 Pictures

문서 주소: https://www.php.cn/link/1f8c4b6a0115a4617e285b4494126fbf

참조 링크:
[1]https://www.php.cn/link/ 85dca1d 270f7f9aef00c9d372f114482 [2]https://www.php.cn/link/a4c22565dfafb162a17a7c357ca9e0be

위 내용은 르쿤, 자율주행 유니콘 사기에 깊은 실망의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7463

Cakephp 튜토리얼

1376

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. May 30, 2024 am 09:35 AM

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다!

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요? Apr 15, 2024 pm 04:13 PM

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

Tesla Dojo 슈퍼컴퓨팅 데뷔, Musk: 연말까지 AI 훈련을 위한 컴퓨팅 성능은 대략 NVIDIA H100 GPU 8,000대와 동일할 것입니다 Jul 24, 2024 am 10:38 AM

7월 24일 본 홈페이지 소식에 따르면, 테슬라 CEO 엘론 머스크(Elon Musk)는 오늘 실적 컨퍼런스콜에서 회사가 엔비디아 H100 2천대를 탑재할 역대 최대 규모의 인공지능 훈련 클러스터를 곧 완성할 예정이라고 밝혔다. GPU. 머스크는 또한 회사 수익 결산에서 투자자들에게 Nvidia의 GPU가 비싸기 때문에 Tesla가 Dojo 슈퍼컴퓨터 개발에 참여할 것이라고 말했습니다. 이 사이트는 Musk의 연설 일부를 다음과 같이 번역했습니다. Dojo를 통해 NVIDIA와 경쟁하는 길은 어렵지만 이제 우리는 NVIDIA에 과도하게 의존하고 있다고 생각합니다. 엔비디아 입장에서는 필연적으로 시장이 감당할 수 있는 수준까지 GPU 가격을 인상하겠지만,

Tesla가 마침내 조치를 취했습니다! 자율주행 택시 곧 공개될까? ! Apr 08, 2024 pm 05:49 PM

4월 8일 뉴스에 따르면, 일론 머스크 테슬라 최고경영자(CEO)는 최근 테슬라가 자율주행차 기술을 본격적으로 개발하기 위해 노력하고 있다고 밝혔다. 많은 기대를 모으고 있는 무인 자율주행택시 로보택시가 8월 8일 정식 출시될 예정이다. 데이터 편집자는 머스크의 다음과 같은 진술을 알게 되었습니다. 앞서 로이터통신은 테슬라의 자동차 운전 계획이 로보택시 생산에 집중할 것이라고 보도한 바 있다. 그러나 머스크는 이를 반박하면서 로이터가 저가차 개발 계획을 취소하고 또다시 허위 보도를 했다고 비난하면서 저가차 모델2와 로보택스가

대량생산 킬러! P-Mapnet: 사전에 저정밀 지도인 SDMap을 사용하여 매핑 성능이 거의 20포인트 가까이 향상되었습니다! Mar 28, 2024 pm 02:36 PM

위에서 설명한 것처럼 현재 자율주행 시스템이 고정밀 지도에 대한 의존성을 없애기 위해 사용하는 알고리즘 중 하나는 여전히 장거리에서의 인지 성능이 좋지 않다는 점을 활용하는 것입니다. 이를 위해 우리는 모델 성능을 향상시키기 위해 맵 사전 융합에 초점을 맞춘 "P"인 P-MapNet을 제안합니다. 특히 SDMap과 HDMap의 사전 정보를 활용합니다. 한편으로는 OpenStreetMap에서 약하게 정렬된 SDMap 데이터를 추출하고 이를 독립적인 용어로 인코딩하여 입력을 지원합니다. 엄격하게 수정된 입력과 실제 HD+Map 사이에 약한 정렬 문제가 있습니다. Cross-attention 메커니즘을 기반으로 하는 우리의 구조는 SDMap 뼈대에 적응적으로 집중할 수 있으며 상당한 성능 향상을 가져올 수 있습니다.

See all articles

르쿤, 자율주행 유니콘 사기에 깊은 실망

GAIA-1은 다양한 모드를 갖춘 생성적 세계 모델입니다.

웨이브는 누구인가요?

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제