이것이 평범한 자율주행 영상이라고 생각하시나요?
사진
이 내용은 원래 의미를 바꾸지 않고 중국어로 다시 작성해야 합니다.
단 한 프레임도 "진짜"가 아닙니다.
Pictures
다양한 도로 상황, 다양한 기상 조건, 20개 이상의 상황을 시뮬레이션할 수 있으며 효과는 실제와 같습니다.
Pictures
세계 모델이 또 멋진 일을 해냈습니다! 이를 본 르쿤은 열성적으로 리트윗했다.
Pictures
위의 효과에 따르면 이것은 최신 버전의 GAIA-1에서 가져온 것입니다.
이 프로젝트의 규모는 4700시간의 운전 비디오 교육을 통해 90억 매개변수에 도달했습니다. 텍스트나 작업에서 자율주행 영상을 생성할 때 가장 직접적인 이점은 미래 사건을 더 잘 예측할 수 있고 20개 이상의 시나리오를 시뮬레이션할 수 있어 자율주행의 안전성이 더욱 향상되고 비용이 절감된다는 것입니다.
Pictures저희 크리에이티브 팀은 이것이 자율주행 게임의 규칙을 완전히 바꿀 것이라고 직설적으로 밝혔습니다!
그럼 GAIA-1은 어떻게 구현되나요?
규모가 클수록 좋습니다.
비디오, 텍스트 및 동작을 입력으로 활용하여 시스템은 사실적인 운전 장면 비디오를 생성하고 자율적으로 제어할 수 있습니다. 차량에 대한 미세 제어 동작 및 장면 특성
텍스트 프롬프트만 사용하여 동영상을 생성할 수 있음
그림 모델 원리는 대규모 언어 모델과 유사합니다. 즉, 다음 토큰을 예측합니다.
모델은 벡터 양자화 표현을 활용할 수 있습니다. 이산화 비디오 프레임을 수집하고 미래 장면을 예측하는 것은 시퀀스의 다음 토큰을 예측하는 것으로 변환됩니다. 그런 다음 확산 모델을 사용하여 세계 모델의 언어 공간에서 고품질 비디오를 생성합니다.
구체적인 단계는 다음과 같습니다.
그림첫 번째 단계는 이해하기 쉽습니다. 즉, 다양한 입력을 기록하고 정렬하고 결합하는 것입니다.
특수 인코더를 사용하여 다양한 입력을 인코딩하고 다양한 입력을 공유 표현으로 투영합니다. 텍스트 및 비디오 인코더는 입력을 분리하고 포함하는 반면, 작동 표현은 공유 표현으로 개별적으로 투영됩니다.
이러한 인코딩된 표현은 시간적으로 일관됩니다.
정리를 마치면 세계모델의 핵심부분이 등장합니다.
자동 회귀 변환기로서 시퀀스의 다음 이미지 토큰 세트를 예측할 수 있습니다. 그리고 이전 이미지 토큰을 고려할 뿐만 아니라 텍스트 및 작업의 맥락 정보도 고려합니다.
모델이 생성한 콘텐츠는 이미지의 일관성을 유지할 뿐만 아니라 예상되는 텍스트 및 동작과도 일치합니다.
팀에서는 GAIA-1의 월드 모델 크기가 65억 매개변수이며 64개로 학습되었다고 소개했습니다. 15일 동안 A100이 됩니다.
마지막으로 비디오 디코더와 비디오 확산 모델을 사용하여 이러한 토큰을 다시 비디오로 변환합니다.
이 단계의 중요성은 비디오의 의미 품질, 이미지 정확성 및 시간적 일관성을 보장하는 것입니다.
GAIA-1의 비디오 디코더는 26억 개의 매개변수 규모를 가지며 32개의 A100을 사용하여 15일 동안 훈련되었습니다.
GAIA-1은 대규모 언어 모델의 원리와 유사할 뿐만 아니라 모델 규모가 확장됨에 따라 생성 품질이 향상되는 특성을 보여준다는 점을 언급할 가치가 있습니다
Pictures팀에서 검토한 내용은 다음과 같습니다. 6월 이전에 출시된 초기 버전과 최신 효과를 비교해봤습니다
후자가 전자보다 480배 커졌습니다.
영상 디테일과 해상도가 대폭 향상되었음을 직관적으로 확인하실 수 있습니다.
Pictures실용적인 관점에서 GAIA-1의 출현은 자율주행의 규칙을 바꿀 것이라고 말했습니다
사진
그 이유는 세 가지 측면에서 설명할 수 있습니다.
우선 보안 측면에서 월드 모델은 미래를 시뮬레이션할 수 있으며, 자율주행의 안전에 매우 중요한 스스로 결정을 내릴 수 있는 능력을 AI에 부여합니다.
둘째, 자율주행에는 훈련 데이터도 매우 중요합니다. 생성된 데이터는 더욱 안전하고 비용 효율적이며 무한히 확장 가능합니다.
제너레이티브 AI는 자율 주행이 직면한 롱테일 시나리오 문제 중 하나를 해결할 수 있습니다. 안개가 낀 날씨에 길을 건너는 보행자를 만나는 등 더 많은 엣지 시나리오를 처리할 수 있습니다. 이를 통해 자율주행 역량이 더욱 향상될 것입니다
GAIA-1은 영국의 자율주행 스타트업 Wayve가 개발했습니다.
Wayve는 2017년에 설립되었습니다. 투자자로는 Microsoft 등이 있으며, 그 가치는 유니콘에 도달했습니다.
창립자는 Alex Kendall과 Amar Shah이며 둘 다 케임브리지 대학교에서 기계 학습 박사 학위를 취득했습니다.
Pictures
Tesla와 마찬가지로 기술적인 측면에서 Wayve는 카메라 사용을 옹호합니다. 순전히 시각적 솔루션인 고정밀 지도를 아주 일찍 포기하고 "실시간 인식" 경로를 확고히 따랐습니다.
얼마 전 팀이 출시한 또 다른 대형 모델 LINGO-1도 큰 관심을 끌었습니다
이 자율 주행 모델은 운전 중에 실시간으로 설명을 생성할 수 있어 모델의 해석력이 더욱 향상됩니다
올해 3월에는 , 빌 게이츠도 웨이브의 자율주행차를 시험 운전했다.
Pictures
문서 주소: https://www.php.cn/link/1f8c4b6a0115a4617e285b4494126fbf
참조 링크:
[1]https://www.php.cn/link/ 85dca1d 270f7f9aef00c9d372f114482 [2]https://www.php.cn/link/a4c22565dfafb162a17a7c357ca9e0be
위 내용은 르쿤, 자율주행 유니콘 사기에 깊은 실망의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!