본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.
많은 관심 속에 GPT4가 오늘 드디어 비전 관련 기능을 출시했습니다.
오늘 오후 친구들과 함께 빠르게 GPT의 이미지 인식 능력을 테스트해봤습니다. 기대는 했지만 여전히 큰 충격을 받았습니다.
핵심 관점:
자율주행에서 의미론적 문제는 대형 모델이 잘 해결했어야 했다고 생각하지만, 대형 모델의 신뢰성과 공간 인식 능력은 아직 만족스럽지 않습니다.
효율성과 관련된 소위 코너 케이스를 해결하는 것만으로도 충분하지만, 독립적인 주행을 완성하고 안전을 보장하기 위해 대형 모델에 전적으로 의존하기에는 아직 멀었습니다.
ΔGPT4 설명
정확한 부분: 트럭 3대가 감지되었으며 앞 차량의 번호판 번호는 기본적으로 정확했습니다(한자가 있는 경우 무시) ), 날씨 환경에 맞게 수정하고 프롬프트 없이 전방의 알려지지 않은 장애물을 정확하게 식별합니다 .
잘못된 부분: 세 번째 트럭의 위치는 왼쪽에서 오른쪽으로 구분할 수 없으며, 두 번째 트럭 머리 위의 텍스트는 무작위 추측입니다(해상도가 부족해서?).
이것으로는 충분하지 않습니다. 계속해서 약간의 힌트를 주고 이 물체가 무엇인지, 눌러도 되는지 물어봅시다.
인상적이네요! 우리는 유사한 여러 시나리오를 테스트했으며, 알려지지 않은 장애물에 대한 성능은 놀랍다고 말할 수 있습니다.
표지판을 자동으로 인식하는 프롬프트는 없습니다. 이는 기본이므로 계속해서 힌트를 드리겠습니다.
또 충격받았어요. . . 그는 자동으로 트럭 뒤의 안개를 알 수 있었고 웅덩이에 대해서도 언급했지만 다시 한 번 방향이 왼쪽이라고 말했습니다. . . GPT가 위치와 방향을 더 잘 출력할 수 있도록 하려면 여기에 몇 가지 즉각적인 엔지니어링이 필요할 수 있다고 생각합니다.
첫 번째 프레임은 타이밍 정보가 없어서 그냥 주차된 것으로 간주했습니다. 여기 또 다른 프레임이 있습니다.
이 차는 가드레일을 뚫고 도로 가장자리에 맴돌았습니다. 정말 대단합니다. . . 하지만 오히려 쉬워 보이던 도로 표지판이 틀렸습니다. . . 내가 말할 수 있는 것은 이것이 항상 당신에게 충격을 줄 것이며 언제 울게 될지 결코 알 수 없는 거대한 모델이라는 것입니다. . . 또 다른 프레임:
이번에는 길 위의 잔해에 대해 직접적으로 이야기하는데, 또 감탄하게 됩니다. . . 하지만 한번은 길에 잘못된 화살표가 있다고 언급한 적이 있습니다. . . 일반적으로 이 장면에서는 특별한 주의가 필요한 정보가 도로 표지판과 같은 문제에 대해 가려지지 않습니다.
"누군가가 당신에게 손을 흔들었습니다"와 같은 이전의 어려운 사례에 비해 매우 정확하다고 말할 수 있습니다.
처음에는 비교적 보수적이어서 원인을 직접 추측하지는 않았습니다. 정렬의 목표.
위 내용은 CTO '대충 충격' : 5회 연속 GPT-4V 자율주행 테스트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!