최근에는 세계적인 모델들의 인기가 로봇 운용에 있어서 중요한 역할을 하는 것 같습니다. 체화된 지능에 있어서 조작은 이 단계에서 돌파해야 할 가장 중요한 포인트이다. 특히 다음과 같은 장기적인 작업의 경우, 다양하고 복잡한 작동 요구 사항을 달성하기 위해 로봇 "소뇌"를 구축하는 방법은 현재 해결해야 할 가장 시급한 문제입니다.
LM을 사용하여 로봇에 적용할 때 일반적인 접근 방식은 컨텍스트에 따라 다양한 API를 제공한 다음 LLM이 작업 프롬프트에 따라 계획 코드를 자동으로 작성하도록 하는 것입니다.
이 방법의 장점. 매우 직관적이어서 A로 이동, B 잡기, C로 이동, B 내려놓기 등 작업의 분해 로직을 보다 명확하게 파악할 수 있다는 점입니다. 하지만 이 작업의 전제는 전체 작업을 원자적 작업(이동, 잡기, 배치 등)으로 분할할 수 있다는 것입니다. 하지만 옷 개는 일처럼 좀 더 복잡한 작업이라면 당연히 작업을 분할하기 어려운데 이때 어떻게 해야 할까요? 실제로 조작을 위해서는 지평선이 길고 분할하기 어려운 많은 작업에 직면해야 합니다.
장거리 조작 작업의 경우 더 나은 접근 방식은 확산 정책 또는 ACT는 전체 작업 궤적을 모델링하고 피팅합니다. 그러나 이 방법은 문제에 직면하게 됩니다. 즉, 누적 오류를 잘 처리할 방법이 없으며 이 문제의 본질은 효과적인 피드백 메커니즘이 부족하다는 것입니다. 옷을 접는 경우를 예로 들어보겠습니다. 사람들은 옷을 접을 때 실제로 시각적으로 보이는 옷의 변화에 따라 운영 전략을 끊임없이 조정하고 최종적으로는 원하는 모습으로 옷을 접습니다. 여기에는 실제로 비교적 암묵적이지만 매우 중요한 점이 있습니다. 사람들은 어떤 작업이 옷에 어떤 변화를 가져오는지 대략적으로 알고 있다는 것입니다. 그러면 한 단계 더 나아가 사람들은 실제로 의복 변형에 대한 모델
을 갖고 있으며, 어떤 종류의 입력이 상태(의복 배치)의 변화로 이어질지 대략적으로 알 수 있습니다(시각적 수준은 더 구체적으로 픽셀 수준입니다).
SORA는 실제로 나에게 힘을 주었습니다. 즉, 충분한 데이터가 있는 한 변환기+확산 레이어를 사용하여 변화를 이해하고 예측할 수 있는 모델 f를 하드 트레이닝할 수 있습니다. . 동작에 따른 옷의 변화를 예측하는 매우 강력한 모델 f가 이미 있다고 가정하면, 옷을 접을 때 픽셀 수준의 옷 상태 피드백과 Model Predictive Control 아이디어를 통해 시각적 서보(Visual Servo)를 구축할 수 있습니다.
옷을 원하는 상태로 접는 전략. 이는 실제로 LeCun의 최근 "폭력적인 토론" 중 일부에서 확인되었습니다.
로봇 작동을 위한 세계 모델을 구축하는 방법
위 내용은 로봇 작동을 위한 세계 모델에 대한 몇 가지 생각의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!