로봇 작동을 위한 세계 모델에 대한 몇 가지 생각

王林
풀어 주다: 2024-04-28 17:31:10
앞으로
711명이 탐색했습니다.

최근에는 세계적인 모델들의 인기가 로봇 운용에 있어서 중요한 역할을 하는 것 같습니다. 체화된 지능에 있어서 조작은 이 단계에서 돌파해야 할 가장 중요한 포인트이다. 특히 다음과 같은 장기적인 작업의 경우, 다양하고 복잡한 작동 요구 사항을 달성하기 위해 로봇 "소뇌"를 구축하는 방법은 현재 해결해야 할 가장 시급한 문제입니다.

스킬을 원자적 연산으로 나누어야 하나요?

LM을 사용하여 로봇에 적용할 때 일반적인 접근 방식은 컨텍스트에 따라 다양한 API를 제공한 다음 LLM이 작업 프롬프트에 따라 계획 코드를 자동으로 작성하도록 하는 것입니다.

이 방법의 장점. 매우 직관적이어서 A로 이동, B 잡기, C로 이동, B 내려놓기 등 작업의 분해 로직을 보다 명확하게 파악할 수 있다는 점입니다. 하지만 이 작업의 전제는 전체 작업을 원자적 작업(이동, 잡기, 배치 등)으로 분할할 수 있다는 것입니다. 하지만 옷 개는 일처럼 좀 더 복잡한 작업이라면 당연히 작업을 분할하기 어려운데 이때 어떻게 해야 할까요? 실제로 조작을 위해서는 지평선이 길고 분할하기 어려운 많은 작업에 직면해야 합니다.

로봇 작동을 위한 세계 모델에 대한 몇 가지 생각

세계 모델을 핵심 돌파구로 사용할 수 있습니다

분할하기 어려운

장거리 조작 작업의 경우 더 나은 접근 방식은 확산 정책 또는 ACT는 전체 작업 궤적을 모델링하고 피팅합니다. 그러나 이 방법은 문제에 직면하게 됩니다. 즉, 누적 오류를 잘 처리할 방법이 없으며 이 문제의 본질은 효과적인 피드백 메커니즘이 부족하다는 것입니다. 옷을 접는 경우를 예로 들어보겠습니다. 사람들은 옷을 접을 때 실제로 시각적으로 보이는 옷의 변화에 ​​따라 운영 전략을 끊임없이 조정하고 최종적으로는 원하는 모습으로 옷을 접습니다. 여기에는 실제로 비교적 암묵적이지만 매우 중요한 점이 있습니다. 사람들은 어떤 작업이 옷에 어떤 변화를 가져오는지 대략적으로 알고 있다는 것입니다. 그러면 한 단계 더 나아가 사람들은 실제로 의복 변형에 대한 모델

을 갖고 있으며, 어떤 종류의 입력이 상태(의복 배치)의 변화로 이어질지 대략적으로 알 수 있습니다(시각적 수준은 더 구체적으로 픽셀 수준입니다).

SORA는 실제로 나에게 힘을 주었습니다. 즉, 충분한 데이터가 있는 한 변환기+확산 레이어를 사용하여 변화를 이해하고 예측할 수 있는 모델 f를 하드 트레이닝할 수 있습니다. . 동작에 따른 옷의 변화를 예측하는 매우 강력한 모델 f가 이미 있다고 가정하면, 옷을 접을 때 픽셀 수준의 옷 상태 피드백과 로봇 작동을 위한 세계 모델에 대한 몇 가지 생각Model Predictive Control 아이디어를 통해 시각적 서보(Visual Servo)를 구축할 수 있습니다.

옷을 원하는 상태로 접는 전략. 이는 실제로 LeCun의 최근 "폭력적인 토론" 중 일부에서 확인되었습니다.

로봇 작동을 위한 세계 모델에 대한 몇 가지 생각로봇 작동을 위한 세계 모델을 구축하는 방법

로봇 작동을 위한 세계 모델에 대한 몇 가지 생각

위 내용은 로봇 작동을 위한 세계 모델에 대한 몇 가지 생각의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!