목차
예1: 도로에 알 수 없는 장애물이 나타났습니다
예2: 도로 물 쌓임 이해하기
예3: 차량이 방향을 틀어 가드레일을 직격시켰습니다
예제 4: 재미있는 놀이를 해보자
Example5 유명한 장면을 하나 보겠습니다. . . 배달 트럭이 새로 건설된 도로에 실수로 진입했습니다
기술 주변기기 일체 포함 CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트

CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트

Oct 16, 2023 am 11:29 AM
기술 자율주행

본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.

많은 관심 속에 GPT4가 오늘 드디어 비전 관련 기능을 출시했습니다.

오늘 오후 친구들과 함께 빠르게 GPT의 이미지 인식 능력을 테스트해봤습니다. 기대는 했지만 여전히 큰 충격을 받았습니다.

핵심 관점:

자율주행에서 의미론적 문제는 대형 모델이 잘 해결했어야 했다고 생각하지만, 대형 모델의 신뢰성과 공간 인식 능력은 아직 만족스럽지 않습니다.

효율성과 관련된 소위 코너 케이스를 해결하는 것만으로도 충분하지만, 독립적인 주행을 완성하고 안전을 보장하기 위해 대형 모델에 전적으로 의존하기에는 아직 멀었습니다.

예1: 도로에 알 수 없는 장애물이 나타났습니다

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

ΔGPT4 설명

정확한 부분: 트럭 3대가 감지되었으며 앞 차량의 번호판 번호는 기본적으로 정확했습니다(한자가 있는 경우 무시) ), 날씨 환경에 맞게 수정하고 프롬프트 없이 전방의 알려지지 않은 장애물을 정확하게 식별합니다 .

잘못된 부분: 세 번째 트럭의 위치는 왼쪽에서 오른쪽으로 구분할 수 없으며, 두 번째 트럭 머리 위의 텍스트는 무작위 추측입니다(해상도가 부족해서?).

이것으로는 충분하지 않습니다. 계속해서 약간의 힌트를 주고 이 물체가 무엇인지, 눌러도 되는지 물어봅시다.

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

인상적이네요! 우리는 유사한 여러 시나리오를 테스트했으며, 알려지지 않은 장애물에 대한 성능은 놀랍다고 말할 수 있습니다.

예2: 도로 물 쌓임 이해하기

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

표지판을 자동으로 인식하는 프롬프트는 없습니다. 이는 기본이므로 계속해서 힌트를 드리겠습니다.

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

또 충격받았어요. . . 그는 자동으로 트럭 뒤의 안개를 알 수 있었고 웅덩이에 대해서도 언급했지만 다시 한 번 방향이 왼쪽이라고 말했습니다. . . GPT가 위치와 방향을 더 잘 출력할 수 있도록 하려면 여기에 몇 가지 즉각적인 엔지니어링이 필요할 수 있다고 생각합니다.

예3: 차량이 방향을 틀어 가드레일을 직격시켰습니다

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

첫 번째 프레임은 타이밍 정보가 없어서 그냥 주차된 것으로 간주했습니다. 여기 또 다른 프레임이 있습니다.

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

이 차는 가드레일을 뚫고 도로 가장자리에 맴돌았습니다. 정말 대단합니다. . . 하지만 오히려 쉬워 보이던 도로 표지판이 틀렸습니다. . . 내가 말할 수 있는 것은 이것이 항상 당신에게 충격을 줄 것이며 언제 울게 될지 결코 알 수 없는 거대한 모델이라는 것입니다. . . 또 다른 프레임:

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

이번에는 길 위의 잔해에 대해 직접적으로 이야기하는데, 또 감탄하게 됩니다. . . 하지만 한번은 길에 잘못된 화살표가 있다고 언급한 적이 있습니다. . . 일반적으로 이 장면에서는 특별한 주의가 필요한 정보가 도로 표지판과 같은 문제에 대해 가려지지 않습니다.

예제 4: 재미있는 놀이를 해보자

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

"누군가가 당신에게 손을 흔들었습니다"와 같은 이전의 어려운 사례에 비해 매우 정확하다고 말할 수 있습니다.

Example5 유명한 장면을 하나 보겠습니다. . . 배달 트럭이 새로 건설된 도로에 실수로 진입했습니다

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

처음에는 비교적 보수적이어서 원인을 직접 추측하지는 않았습니다. 정렬의 목표. CTO 대충 충격 : 5회 연속 GPT-4V 자율주행 테스트

CoT 사용 후 차량이 자율주행차로 인식되지 않는다는 문제가 발견되었으므로 프롬프트를 통해 이러한 정보를 제공하면 보다 정확한 정보를 제공할 수 있습니다.

마지막으로 여러 가지 프롬프트를 통해 새로 깔린 아스팔트가 운전에 적합하지 않다는 결론을 내릴 수 있습니다. 최종 결과는 여전히 괜찮지만 프로세스가 더 힘들고 더 신속한 엔지니어링과 신중한 설계가 필요합니다.

이 이유는 그림이 첫 번째 관점이 아니고 세 번째 관점에서만 추론될 수 있기 때문일 수도 있습니다. 따라서 이 예는 그다지 정확하지 않습니다.

요약

몇 가지 빠른 시도를 통해 GPT4V의 성능과 일반화 성능이 완전히 입증되었습니다. 적절한 프롬프트는 GPT4V의 장점을 최대한 활용할 수 있어야 합니다.

의미론적 코너 케이스를 해결하는 것은 매우 유망해야 하지만 환상 문제는 보안 관련 시나리오에서 일부 애플리케이션을 여전히 괴롭힐 것입니다.

개인적으로는 이런 대형 모델을 합리적으로 활용하면 L4, 심지어 L5 자율주행의 발전도 크게 가속화할 수 있다고 생각합니다. 그런데 LLM이 직접 운전을 해야 하나요? 특히 엔드투엔드 운전은 아직 논란의 여지가 있는 문제로 남아 있습니다.

위 내용은 CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? 자율주행 분야에서 Gaussian Splatting이 인기를 끌면서 NeRF가 폐기되기 시작한 이유는 무엇입니까? Jan 17, 2024 pm 02:57 PM

위에 작성됨 및 저자의 개인적인 이해 3DGS(3차원 가우스플래팅)는 최근 몇 년간 명시적 방사선장 및 컴퓨터 그래픽 분야에서 등장한 혁신적인 기술입니다. 이 혁신적인 방법은 수백만 개의 3D 가우스를 사용하는 것이 특징이며, 이는 주로 암시적 좌표 기반 모델을 사용하여 공간 좌표를 픽셀 값에 매핑하는 NeRF(Neural Radiation Field) 방법과 매우 다릅니다. 명시적인 장면 표현과 미분 가능한 렌더링 알고리즘을 갖춘 3DGS는 실시간 렌더링 기능을 보장할 뿐만 아니라 전례 없는 수준의 제어 및 장면 편집 기능을 제공합니다. 이는 3DGS를 차세대 3D 재구성 및 표현을 위한 잠재적인 게임 체인저로 자리매김합니다. 이를 위해 우리는 처음으로 3DGS 분야의 최신 개발 및 관심사에 대한 체계적인 개요를 제공합니다.

자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? 자율주행 시나리오에서 롱테일 문제를 해결하는 방법은 무엇입니까? Jun 02, 2024 pm 02:44 PM

어제 인터뷰 도중 롱테일 관련 질문을 해본 적이 있느냐는 질문을 받아서 간략하게 요약해볼까 생각했습니다. 자율주행의 롱테일 문제는 자율주행차의 엣지 케이스, 즉 발생 확률이 낮은 가능한 시나리오를 말한다. 인지된 롱테일 문제는 현재 단일 차량 지능형 자율주행차의 운영 설계 영역을 제한하는 주요 이유 중 하나입니다. 자율주행의 기본 아키텍처와 대부분의 기술적인 문제는 해결되었으며, 나머지 5%의 롱테일 문제는 점차 자율주행 발전을 제한하는 핵심이 되었습니다. 이러한 문제에는 다양한 단편적인 시나리오, 극단적인 상황, 예측할 수 없는 인간 행동이 포함됩니다. 자율 주행에서 엣지 시나리오의 "롱테일"은 자율주행차(AV)의 엣지 케이스를 의미하며 발생 확률이 낮은 가능한 시나리오입니다. 이런 희귀한 사건

카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토 Jan 26, 2024 am 11:18 AM

0. 전면 작성&& 자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하고 알고리즘과 모델을 사용하는 고급 인식, 의사결정 및 제어 기술에 의존한다는 개인적인 이해 실시간 분석과 의사결정을 위해 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 자율주행 시스템의 3차원 객체 감지 알고리즘이 주변 환경의 객체의 위치를 ​​포함하여 정확하게 인지하고 묘사할 수 있어야 하며,

Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요? Mar 06, 2024 pm 05:34 PM

StableDiffusion3의 논문이 드디어 나왔습니다! 이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(DiffusionTransformer) 아키텍처를 사용합니다. 출시되자마자 큰 화제를 불러일으켰습니다. 이전 버전과 비교하여 StableDiffusion3에서 생성된 이미지의 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 향상되었으며 더 이상 잘못된 문자가 표시되지 않습니다. StabilityAI는 StableDiffusion3이 800M에서 8B 범위의 매개변수 크기를 가진 일련의 모델임을 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있어 AI 사용이 크게 줄어든다는 것을 의미합니다.

자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! 자율주행과 궤도예측에 관한 글은 이 글이면 충분합니다! Feb 28, 2024 pm 07:20 PM

자율주행 궤적 예측은 차량의 주행 과정에서 발생하는 다양한 데이터를 분석하여 차량의 향후 주행 궤적을 예측하는 것을 의미합니다. 자율주행의 핵심 모듈인 궤도 예측의 품질은 후속 계획 제어에 매우 중요합니다. 궤적 예측 작업은 풍부한 기술 스택을 보유하고 있으며 자율 주행 동적/정적 인식, 고정밀 지도, 차선, 신경망 아키텍처(CNN&GNN&Transformer) 기술 등에 대한 익숙함이 필요합니다. 시작하기가 매우 어렵습니다! 많은 팬들은 가능한 한 빨리 궤도 예측을 시작하여 함정을 피하기를 희망합니다. 오늘은 궤도 예측을 위한 몇 가지 일반적인 문제와 입문 학습 방법을 살펴보겠습니다. 관련 지식 입문 1. 미리보기 논문이 순서대로 되어 있나요? A: 먼저 설문조사를 보세요, p

SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 SIMPL: 자율 주행을 위한 간단하고 효율적인 다중 에이전트 동작 예측 벤치마크 Feb 20, 2024 am 11:48 AM

원제목: SIMPL: ASimpleandEfficientMulti-agentMotionPredictionBaselineforAutonomousDriving 논문 링크: https://arxiv.org/pdf/2402.02519.pdf 코드 링크: https://github.com/HKUST-Aerial-Robotics/SIMPL 저자 단위: Hong Kong University of Science 및 기술 DJI 논문 아이디어: 이 논문은 자율주행차를 위한 간단하고 효율적인 모션 예측 기준선(SIMPL)을 제안합니다. 기존 에이전트 센트와 비교

엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요? 엔드투엔드(End-to-End)와 차세대 자율주행 시스템, 그리고 엔드투엔드 자율주행에 대한 몇 가지 오해에 대해 이야기해볼까요? Apr 15, 2024 pm 04:13 PM

지난 달에는 몇 가지 잘 알려진 이유로 업계의 다양한 교사 및 급우들과 매우 집중적인 교류를 가졌습니다. 교환에서 피할 수 없는 주제는 자연스럽게 엔드투엔드와 인기 있는 Tesla FSDV12입니다. 저는 이 기회를 빌어 여러분의 참고와 토론을 위해 지금 이 순간 제 생각과 의견을 정리하고 싶습니다. End-to-End 자율주행 시스템을 어떻게 정의하고, End-to-End 해결을 위해 어떤 문제가 예상되나요? 가장 전통적인 정의에 따르면, 엔드 투 엔드 시스템은 센서로부터 원시 정보를 입력하고 작업과 관련된 변수를 직접 출력하는 시스템을 의미합니다. 예를 들어 이미지 인식에서 CNN은 기존의 특징 추출 + 분류기 방식에 비해 end-to-end 방식으로 호출할 수 있습니다. 자율주행 작업에서는 다양한 센서(카메라/LiDAR)로부터 데이터를 입력받아

nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다! nuScenes의 최신 SOTA | SparseAD: Sparse 쿼리는 효율적인 엔드투엔드 자율주행을 지원합니다! Apr 17, 2024 pm 06:22 PM

전면 및 시작점 작성 엔드 투 엔드 패러다임은 통합 프레임워크를 사용하여 자율 주행 시스템에서 멀티 태스킹을 달성합니다. 이 패러다임의 단순성과 명확성에도 불구하고 하위 작업에 대한 엔드투엔드 자율 주행 방법의 성능은 여전히 ​​단일 작업 방법보다 훨씬 뒤떨어져 있습니다. 동시에 이전 엔드투엔드 방법에서 널리 사용된 조밀한 조감도(BEV) 기능으로 인해 더 많은 양식이나 작업으로 확장하기가 어렵습니다. 여기서는 희소 검색 중심의 엔드 투 엔드 자율 주행 패러다임(SparseAD)이 제안됩니다. 여기서 희소 검색은 밀집된 BEV 표현 없이 공간, 시간 및 작업을 포함한 전체 운전 시나리오를 완전히 나타냅니다. 특히 통합 스파스 아키텍처는 탐지, 추적, 온라인 매핑을 포함한 작업 인식을 위해 설계되었습니다. 게다가 무겁다.

See all articles