최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.

WBOY
풀어 주다: 2023-11-09 11:13:16
앞으로
1250명이 탐색했습니다.

대형 모델의 다양한 적용이 최근에도 여전히 인기를 끌고 있습니다. 10월 초쯤에는 대형 모델을 자율주행에 적용시키려는 다소 교묘한 기사가 잇달아 등장했습니다. 나는 최근에 많은 친구들과 관련된 주제에 관해 많은 이야기를 나누었고, 이 글을 쓰면서 한편으로는 과거에 우리가 매우 관련이 있지만 실제로는 다른 개념을 혼동했다는 것을 발견했습니다. 이는 이러한 개념의 확장으로 모든 사람과 공유하고 논의할 가치가 있는 몇 가지 흥미로운 생각이 있습니다.

대형(언어) 모델

이것은 의심할 여지없이 현재 가장 인기 있는 방향이며 가장 집중된 논문의 초점이기도 합니다. 대규모 언어 모델이 자율 주행에 어떻게 도움이 될까요? 한편으로는 GPT-4V와 마찬가지로 이미지와의 정렬을 통해 매우 강력한 의미 이해 기능을 제공하지만, 다른 한편으로는 LLM을 에이전트로 사용하여 운전 행동을 직접 구현합니다. 후자는 실제로 현재 가장 섹시한 연구 방향이며 임베디드 AI에 대한 일련의 작업과 불가분의 관계가 있습니다.

지금까지 본 후자 유형의 작업은 대부분 LLM을 사용합니다. 1) 직접 사용 2) 지도 학습을 통해 미세 조정 3) 운전 작업에 대한 강화 학습을 통해 미세 조정. 본질적으로 학습방식을 기반으로 한 운전이라는 기존의 패러다임 틀에서 벗어날 수는 없습니다. 사실 매우 직접적인 질문은 '이 작업을 수행하기 위해 LLM을 사용하는 것이 왜 더 나은가?'입니다. 직관적으로 말하면 단어를 사용하여 운전하는 것은 비효율적이고 장황한 작업입니다. 그러던 어느날 문득 깨달았습니다LLM은 실제로 Agent를 위한 Pretrain을 언어를 통해 구현하고 있습니다! 이전에는 RL이 일반화하기 어려웠던 중요한 이유 중 하나는 다양한 작업을 통합하고 다양한 공통 데이터를 사용하여 사전 학습을 하기가 어려웠기 때문입니다. 그런데 LLM은 그런 문제를 아주 잘 해결했습니다. 질문. 그러나 실제로는 잘 해결되지 않은 몇 가지 문제가 있습니다. 1) Pretrain을 완료한 후 언어를 출력 인터페이스로 유지해야 합니까? 이는 실제로 많은 작업에 많은 불편을 초래하고, 어느 정도 중복된 계산을 초래하기도 합니다. 2) 에이전트로서의 LLM 접근 방식은 여전히 ​​기존 RL 모델 프리 방법의 본질적인 문제를 극복하지 못하고, 모델 프리 방법의 모든 문제가 여전히 존재합니다. 최근에는 모델 기반 + LLM을 에이전트로 사용하려는 시도도 있었는데, 이는 흥미로운 방향일 수 있습니다.

각 논문에서 제가 마지막으로 불평하고 싶은 것은 단순히 LLM에 연결하고 LLM이 모델을 해석 가능하게 만드는 이유를 출력하도록 하는 것이 아닙니다. 이 이유는 여전히 말도 안되는 것일 수 있습니다. . . 이전에 보장되지 않았던 것은 단지 문장이 출력된다고 해서 보장되지는 않습니다.

대형(시각적) 모델

순전히 대형 시각적 모델은 실제로 아직도 그 마법의 "출현" 순간을 보지 못했습니다. 대규모 시각적 모델에 대해 이야기할 때 일반적으로 두 가지 참조가 가능합니다. 하나는 CLIP, DINO 또는 SAM과 같은 대규모 웹 데이터 사전 학습을 기반으로 하는 초강력 시각적 정보 특징 추출기로 모델의 의미 이해 능력을 크게 향상시킵니다. ; 다른 하나는 GAIA로 대표되는 세계 모델로 구현된 쌍(이미지, 동작 등)의 공동 모델을 나타냅니다.

사실 전자는 기존의 라인을 따라 선형적인 스케일 업을 이어온 결과일 뿐이라고 생각합니다. 현재로서는 자율주행의 양적 변화 가능성을 보기 어렵습니다. 실제로 후자는 올해도 웨이브와 테슬라의 지속적인 홍보에 힘입어 연구자들의 시야에 지속적으로 진입해 왔다. 사람들이 월드 모델에 관해 이야기할 때 모델이 엔드투엔드(직접 작업을 출력함)이며 LLM과 관련되어 있다는 사실을 종종 포함합니다. 사실 이 가정은 일방적이다. 세계 모델에 대한 나의 이해도 매우 제한적입니다. Lecun의 인터뷰와 @Yu Yang의 모델 기반 RL 설문조사를 추천하고 싶습니다. 이에 대해서는 더 이상 다루지 않겠습니다.

Yu Yang: 환경 모델에 대해 알아보기(세계 모델)
https://www.php.cn/link/a2cdd86a458242d42a17c2bf4feff069

순수 시각 자율 주행

실제로는 이해하기 쉽고 시각 센서에만 의존하는 자율 주행 시스템을 말합니다. 사실 자율주행의 최고이자 궁극적인 소망은 바로 인간과 같은 두 눈으로 운전하는 것입니다. 이러한 개념은 일반적으로 위의 두 가지 대형 모델과 연관되어 있습니다. 왜냐하면 이미지의 복잡한 의미론에는 유용한 정보를 추출하기 위한 강력한 추상화 기능이 필요하기 때문입니다. 최근 테슬라의 지속적인 홍보 공세 속에서 이 개념은 아래에서 언급한 엔드투엔드(End-to-End)와도 겹친다. 그러나 실제로 순수한 시각적 드라이빙을 달성하는 방법은 여러 가지가 있으며, 엔드투엔드(end-to-end)는 당연히 그 중 하나이지만 유일한 것은 아닙니다. 순수 시각적인 자율주행을 구현하는데 가장 어려운 문제는 시각이 본질적으로 3D 정보에 둔감하다는 점인데, 대형 모델은 이를 본질적으로 바꾸지 못했다. 특히 다음 사항에 반영됩니다. 1) 전자기파를 수동적으로 수신하는 방식은 3D 공간에서 기하학적 정보를 측정할 수 있는 다른 센서와 달리 시각을 만듭니다. 2) 원근법은 멀리 있는 물체를 오류에 극도로 민감하게 만듭니다. 이는 기본적으로 동일 오류 3D 공간에서 구현되는 다운스트림 계획 및 제어에 매우 적합하지 않습니다. 그런데 시각으로 운전한다는 것은 3D 거리와 속도를 정확하게 예측할 수 있다는 것과 같은 것일까요? 이는 의미론적 이해뿐만 아니라 순수 시각적 자율주행에 있어서 심층적으로 연구할 가치가 있는 표현 문제라고 생각합니다.

End-to-End 자율 주행

이 개념은 센서에서 최종 출력까지의 제어 신호를 의미합니다(실제로는 웨이포인트 정보를 더 상위 계층 계획에 광범위하게 포함할 수도 있다고 생각합니다). 모델. 이는 1980년대 초 ALVINN처럼 센서 데이터를 입력하고 신경망을 통해 직접 제어 신호를 출력하는 다이렉트 엔드 투 엔드 방식일 수도 있고, 올해 CVPR 베스트처럼 단계적 엔드 투 엔드 방식일 수도 있다. 종이 UniAD. 그러나 이러한 방법의 공통점은 각 모듈이 자체 정의된 최적화 목표를 갖는 대신 다운스트림 감독 신호를 업스트림으로 직접 전달할 수 있다는 것입니다. 전반적으로 이것은 올바른 생각입니다. 딥 러닝은 이러한 공동 최적화에 의존하여 성공합니다. 그러나 자율주행이나 범용 로봇 등 매우 복잡하고 물리적인 세계를 다루는 시스템의 경우 엔지니어링 구현과 데이터 구성, 활용 효율성 측면에서 극복해야 할 문제가 많다.

Feed-Forward end-to-end 자율주행

이 개념은 거의 언급되지 않는 것 같지만 사실 end-to-end의 존재 자체도 가치가 있다고 생각하지만 문제는 사용법을 관찰하는 데 있습니다. 이 피드 포워드 방식의. 사실 저를 포함해서 저는 항상 end-to-end 구동이 Feed-Forward 형태여야 한다고 기본적으로 설정해 왔습니다. 현재 딥러닝 기반 방법의 99%가 이러한 구조를 가정하고 있기 때문입니다. (예: 제어 신호)u = f(x), x는 센서의 다양한 관찰입니다. 여기서 f는 매우 복잡한 함수일 수 있습니다. 그러나 실제로 일부 문제에서는 최종 출력이 특정 속성을 만족하거나 이에 가까워지길 원하므로 피드포워드 형식에서는 그러한 보장을 제공하기 어렵습니다. 따라서 u* = argmin g(u, x) s.t. h(u, x)

대형 모델의 개발과 함께 직접 Feed-Forward 엔드 투 엔드 자율주행 솔루션이 부활의 물결을 맞이했습니다. 물론 대형 모델은 매우 강력하지만 많은 분들이 생각해 보셨으면 하는 질문을 던집니다. 대형 모델이 엔드투엔드 만능이라면, 대형 모델이 바둑/고방 엔드를 할 수 있어야 한다는 뜻인가요? -끝으로? AlphaGo와 같은 패러다임은 의미가 없어야합니까? 답은 '아니오'라는 것을 모두가 알고 있다고 믿습니다. 물론, 이 피드포워드 방법은 빠른 근사 솔버로 사용될 수 있으며 대부분의 시나리오에서 좋은 결과를 얻을 수 있습니다.

Neural Planner의 사용을 공개한 다양한 솔루션으로 판단하면 신경 부분은 후속 최적화에서 고도로 볼록하지 않은 최적화 문제를 완화하기 위해 후속 최적화 솔루션에 대한 여러 초기화 제안만 제공합니다. 이는 본질적으로 AlphaGo의 빠른 출시와 동일합니다. 그러나 알파고는 후속 MCTS 검색을 '은폐' 솔루션이라고 부르지 않을 것이다. . .

마지막으로, 이것이 모든 사람이 이러한 개념 간의 차이점과 연관성을 명확히 하는 데 도움이 되고, 모든 사람이 문제를 논의할 때 자신이 말하는 내용을 명확하게 이해할 수 있기를 바랍니다. . .

최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.

원본 링크: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

위 내용은 최근 각광받고 있는 여러 대형 모델과 자율주행 컨셉에 대해 이야기해보겠습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿