지난 달에는 잘 알려진 몇 가지 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSD V12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다.
가장 전통적인 정의에 따르면 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업에 관심 있는 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 각종 센서(카메라/LiDAR/레이더/IMU 등)의 데이터가 입력되고, 차량 주행을 위한 제어 신호(스로틀/핸들 각도 등)가 직접 출력됩니다. 서로 다른 모델 간의 적응 문제를 고려하기 위해 출력을 차량의 궤적에 맞춰 완화할 수도 있습니다. 이것은 전통적인 정의, 또는 제가 좁은 엔드투엔드 정의라고 부르는 것입니다. 이를 바탕으로 수행능력 향상을 위한 일부 중간업무 감독도 도출되었다.
그런데 이렇게 좁은 정의에 더해, 본질적으로 엔드투엔드의 본질이 무엇인지도 생각해 보아야 할까요? 엔드투엔드의 본질은 감각정보의 무손실 전송이라고 생각합니다. 먼저 비엔드-투-엔드 시스템에서 감지와 PnC 모듈 사이의 인터페이스가 어떤 모습인지 생각해 보겠습니다. 일반적으로 화이트리스트 객체(자동차, 사람 등)에 대한 탐지/속성 분석/예측을 하고, 좀 더 주의깊게 하면 정적 환경(도로 구조/속도 제한/신호등 등)에 대한 이해를 하게 됩니다. 일반적인 장애물에 대한 감지 작업도 수행할 예정입니다. 거시적 관점에서 볼 때, 인식에 의해 출력되는 정보는 복잡한 운전 시나리오의 추상화이며 수동으로 정의된 명시적 추상화입니다. 그러나 일부 특이한 시나리오의 경우 현재의 명시적 추상화는 장면의 운전 행동에 영향을 미치는 요소를 완전히 표현할 수 없거나 정의해야 할 작업이 너무 많고 너무 사소하여 필요한 작업을 모두 열거하기 어렵습니다. 따라서 엔드 투 엔드 시스템은 이러한 정보를 자동으로 손실 없이 PnC에 적용하기를 희망하면서 (암시적으로) 포괄적인 표현을 제공합니다. 이러한 요구 사항을 충족할 수 있는 모든 시스템은 generalized end-to-end라고 할 수 있다고 생각합니다.
동적 상호 작용 시나리오의 일부 최적화와 같은 다른 문제에 관해서는 적어도 엔드투엔드가 이러한 문제를 해결할 수 있을 뿐만 아니라 전통적인 방법으로도 이러한 문제를 해결할 수 있다는 것이 제 개인적인 의견입니다. 물론, 데이터의 양이 충분히 클 경우에는 end-to-end가 꽤 좋은 솔루션을 제공할 수 있습니다. 이것이 필요한지 여부는 다음 몇 가지 질문에서 논의될 것입니다.
제어 신호와 웨이포인트는 반드시 end-to-end가 되도록 출력하세요
일반화된 end-to-end 개념에 대해서는 위에서 언급한 개념에 동의할 수 있다면 이 문제는 쉽게 풀릴 것입니다. 이해하다. End-to-End는 작업량을 직접 출력하는 것이 아니라 정보의 무손실 전송을 강조합니다. 이러한 엔드투엔드 처리 방법에는 보안을 보장하기 위해 많은 수의 은밀한 솔루션이 필요하며 구현 과정에서 몇 가지 문제에 직면하게 되며 이는 후속 처리에서 점차적으로 전개됩니다.
엔드 투 엔드 시스템은 대형 모델 또는 순수 비전을 기반으로 해야 합니다
엔드 투 엔드 자율 주행 개념은 대형 모델 자율 주행 및 순수 시각적 자율 주행과 필연적으로 관련이 없습니다. . 이 세 가지 개념은 완전히 독립적으로 존재합니다. 엔드투엔드 시스템은 전통적인 의미의 대규모 모델에 의해 구동될 필요도 없고 순수하게 시각적일 필요도 없습니다. 세 가지 사이에는 몇 가지 연결이 있지만 동일하지는 않습니다.
저는 이전에 이러한 개념 간의 관계를 자세히 설명한 기사를 작성한 적이 있습니다. 자세한 내용은 https://zhuanlan.zhihu.com/p/664189972
장기적으로 위의 내용이 가능합니까? 좁은 의미의 엔드투엔드 시스템이 L3 수준 이상의 자율주행이 가능할까?
사실 먼저 불평하고 싶습니다. L4를 전복하기 위해 대형 모델을 사용한다고 주장하는 사람들은 실제로 L4를 수행한 적이 없으며 모든 질병을 끝까지 치료할 수 있다고 주장하는 사람들은 PnC를 수행한 적이 없습니다. 그래서 엔드투엔드에 열광하는 많은 사람들과 이야기를 나눠본 결과, 이는 검증할 수도, 위조할 수도 없는 순전히 종교적인 논쟁으로 변질됐다. 최첨단 연구 개발에 종사하는 우리 학생들은 여전히 더 실용적이고 증거에 주의를 기울여야 합니다. . . 최소한 당신이 전복하고 싶은 것에 대한 기본적인 지식이 있어야 하고, 관련된 까다로운 문제를 이해해야 합니다. 이것이 당신이 가져야 할 기본적인 과학적 자질입니다. . .
본론으로 돌아가서 지금은 비관적입니다. 현재 FSD가 순전히 엔드투엔드라고 주장하고 있음에도 불구하고, 이 차량이 통계적으로 인간만큼 안전하더라도 그 성능은 미래에 L3 수준 이상으로 요구되는 신뢰성과 안정성에 도달하지 못합니다. , 정렬 시 운전자의 실수만큼 안전한 방법에 직면해야 합니다. 좀 더 직설적으로 말하면, 자율주행 시스템이 대중과 여론에 의해 수용되려면 절대적인 사고율이나 사망률이 아니라, 몇 가지 시나리오가 있다는 것을 대중이 받아들일 수 있는지가 관건일 수 있습니다. 인간에게는 비교적 해결하기 쉬운 반면, 기계는 실수를 합니다. 이 요구 사항은 순수한 엔드투엔드 시스템에서는 달성하기가 더 어렵습니다. 좀 더 구체적으로 설명하자면 21년 만에 답변한 내용은 다음을 참조하세요.
로빈 리의 순간 게시물 보기: 무인 운전은 분명 사고를 일으키겠지만, 확률은 유인 운전보다 훨씬 낮죠?
https://www.zhihu.com/question/530828899/answer/2590673435?utm_psn=1762524415009697792
북미에서 웨이모(Waymo)와 크루즈(Cruise)를 예로 들자면 실제로 사고가 많이 났는데 크루즈가 마지막에 등장한 이유는 무엇일까? 특히 규제 당국과 대중이 용납할 수 없는 사고는 무엇입니까? 이번 사고로 두 사람의 부상이 발생했다. 첫 번째 충돌은 인간 운전자가 피하기가 상당히 어려웠지만 실제로는 받아들일 수 있었다. 하지만 이번 충돌 이후에는 심각한 2차 부상이 발생했다. 시스템이 충돌 위치와 부상자의 위치를 잘못 판단해 교통을 방해하지 않기 위해 풀오버 모드로 다운그레이드해 부상자를 장시간 끌고 다녔다. 이러한 행동은 정상적인 인간 운전자라면 할 수 없는 행동이며 그 영향은 매우 나쁩니다. 이 사건은 크루즈의 혼란을 직접적으로 초래했습니다. 이번 사건은 실제로 우리에게 경종을 울렸습니다. 이러한 일이 발생하지 않도록 하는 방법은 자율주행 시스템의 개발과 운영에 있어서 심각한 고려 사항이 될 것입니다.
그렇다면 지금 이 순간, 차세대 양산형 운전 보조 시스템을 위한 실질적인 솔루션은 무엇일까요?
간단히 말하면 적합한 시스템은 먼저 기존 시스템의 기능 상한선을 완전히 탐색한 다음 이를 엔드투엔드 유연성과 보편성과 결합해야 한다고 생각합니다. 이는 진보적인 엔드투입니다. -end 솔루션. 물론 그 둘을 유기적으로 결합하는 방법은 유료컨텐츠죠 ㅎㅎ. . . 하지만 소위 엔드투엔드(end-to-end) 또는 학습 기반 기획자가 현재 실제로 무엇을 하고 있는지 분석할 수 있습니다.
제 제한된 이해에 따르면 현재의 소위 엔드 투 엔드 모델을 운전에 사용할 때 출력 궤적은 전통적인 방법에 기반한 솔루션이나 학습 기반 플래너 및 전통적인 궤적 계획 알고리즘을 따르게 됩니다. 여러 개의 궤적이 동시에 출력된 다음 선택기를 사용하여 실행할 궤적을 선택합니다. 시스템 아키텍처가 이러한 방식으로 설계되면 이러한 캐스케이드 시스템의 성능 상한은 실제로 이러한 은폐 계획 및 선택기에 의해 제한됩니다. 그러한 솔루션이 여전히 순수한 피드포워드 학습을 기반으로 한다면 예측할 수 없는 실패가 여전히 있을 것이며 이는 본질적으로 안전하다는 목적을 달성할 수 없습니다. 이러한 출력 궤적을 최적화하거나 선택하기 위해 전통적인 계획 방법을 사용하는 것을 고려한다면 이는 학습 기반 방법으로 생성된 궤적과 동일합니다. 이는 이러한 최적화 및 검색 문제에 대한 초기 솔루션을 제공할 뿐입니다. 우리는 직접 그러한 궤적을 최적화하고 검색하는 것은 어떻습니까?
물론 일부 학생들은 이러한 최적화나 검색 문제가 볼록하지 않고 상태 공간이 너무 커서 차량 탑재 시스템에서 실시간으로 실행할 수 없다고 튀어나올 것입니다. 여기서는 모든 사람에게 이 질문에 대해 신중하게 생각해 보시기 바랍니다. 지난 10년 동안 인식 시스템은 컴퓨팅 성능 배당금이 최소 100배 이상 발전했지만 PnC 모듈은 어떻습니까? PnC 모듈이 최근 몇 년간 고급 최적화 알고리즘의 일부 발전과 결합하여 대규모 컴퓨팅 성능을 사용하도록 허용한다면 이 결론이 여전히 유효할까요? 이러한 문제에 대응하기 위해서는 우리의 명예에 안주하거나 길에만 의존해서는 안 되며, 기본원리부터 무엇이 옳은 것인지 고민해야 합니다.
사실 자율주행과 매우 유사한 예로는 체스가 있습니다. 바로 올해 2월 Deepmind가 기사를 게재했습니다(검색 없는 그랜드마스터 수준 체스: https://arxiv.org/abs/2402.04494). AlphaGo와 AlphaZero에서 데이터 기반만을 사용하고 MCTS 검색을 포기하는 것이 가능한지 탐색 중입니다. 자율 주행에 비유하면 단 하나의 네트워크만 사용하여 행동을 직접 출력하고 모든 후속 단계를 무시한다는 것입니다. 논문의 결론은 상당한 규모의 데이터와 모델 매개변수 하에서는 검색 없이도 합리적인 결과를 얻을 수 있다는 것입니다. 그러나 방법을 더한 검색과 비교하면 여전히 매우 큰 격차가 있습니다. (여기 기사의 비교는 실제로 공평하지 않습니다. 실제 격차는 훨씬 더 커야 합니다.) 특히 일부 어려운 최종 게임을 해결하는 데 있어서 순수한 데이터 기반 성능은 매우 열악합니다. 자율주행에 대한 이러한 비유는 다단계 게임이 필요한 어려운 시나리오나 코너 케이스에서 전통적인 최적화나 검색 알고리즘을 완전히 버리는 것이 여전히 어렵다는 것을 의미합니다. AlphaZero와 같은 다양한 기술의 장점을 합리적으로 활용하는 것이 성능을 향상시키는 가장 효율적인 방법입니다.
이 개념도 많은 사람들과의 소통에서 반복적으로 수정되어야 합니다. 많은 사람들의 정의에 따르면 순수하게 데이터 중심이 아닌 한 규칙 기반이라고 합니다. 다시 체스를 두는 예를 들어보겠습니다. 공식과 체스 기록을 암기하는 것은 규칙 기반이지만, 알파고나 알파제로처럼 검색과 최적화를 통해 모델 추론 기능을 부여한다면 규칙 기반이라고 할 수는 없을 것 같습니다. 이것이 바로 현재의 대형 모델 자체가 부족한 점이며, 연구자들이 CoT 및 기타 방법을 통해 학습 기반 모델을 제공하려고 하는 것입니다. 그러나 운전하는 사람의 모든 행동에는 명확한 동기가 있는데, 이는 이유를 명확하게 설명할 수 없는 순수한 데이터 중심의 이미지 인식과 같은 작업과는 다릅니다. 적합한 알고리즘 아키텍처 설계에서 의사결정 궤적은 변수가 되어야 하며 과학적 목표에 따라 균일하게 최적화되어야 합니다. 강제로 패치를 적용하고 매개 변수를 조정하여 다양한 사례를 수정하는 대신. 이러한 시스템에는 당연히 이상한 하드코드 규칙이 없습니다.
마지막으로 엔드 투 엔드는 유망한 기술 경로일 수 있지만 이러한 개념을 어떻게 실제로 적용할 수 있는지에 대해서는 아직 탐구해야 할 부분이 많습니다. 데이터와 모델 매개변수를 쌓아두는 것이 유일한 올바른 해결책일까요? 제 생각에는 지금은 그렇지 않습니다. 언제나 최첨단 연구기술자로서 우리는 머스크가 말한 제1원칙과 공학적 사고를 진정으로 추구해야 하며, 머스크 자신을 제1원칙으로 삼기보다는 실천에서부터 문제의 본질을 고민해야 한다고 생각합니다. . 정말 앞서고 싶다면 생각을 포기하지 말고 남들이 말하는 대로 따라가면 안 됩니다. 그렇지 않으면 코너에서도 계속 추월하려고 노력해야 할 것입니다.
위 내용은 엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!