언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.-일체 포함-php.cn

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

로봇 분야에서 보편적인 로봇 전략을 구현하려면 많은 양의 데이터가 필요하며, 현실 세계에서 이 데이터를 수집하는 것은 시간이 많이 걸리고 힘든 일입니다. 시뮬레이션은 장면 및 인스턴스 수준에서 다양한 양의 데이터를 생성하기 위한 경제적인 솔루션을 제공하지만, 시뮬레이션 환경에서 작업 다양성을 늘리는 것은 필요한 인력이 많이 필요하기 때문에(특히 복잡한 작업의 경우) 여전히 어려움에 직면해 있습니다. 이로 인해 일반적으로 수십에서 수백 개의 작업만 포함하는 일반적인 인공 시뮬레이션 벤치마크가 생성됩니다.

어떻게 해결하나요? 최근 몇 년 동안 대규모 언어 모델은 다양한 작업을 위한 자연어 처리 및 코드 생성 분야에서 계속해서 상당한 진전을 이루었습니다. 마찬가지로 LLM은 사용자 인터페이스, 작업 및 동작 계획, 로봇 로그 요약, 비용 및 보상 설계를 포함하여 로봇공학의 여러 측면에 적용되어 물리 기반 및 코드 생성 작업 모두에서 강력한 기능을 보여줍니다.

최근 연구에서 MIT CSAIL, Shanghai Jiao Tong University 및 기타 기관의 연구원들은 LLM을 사용하여 다양한 시뮬레이션 작업을 생성하고 그 기능을 더욱 탐구할 수 있는지 추가로 조사했습니다.

특히 연구원들은 작업 자산 배열 및 작업 진행을 설계하고 확인하기 위한 자동화된 메커니즘을 제공하는 LLM 기반 프레임워크 GenSim을 제안했습니다. 더 중요한 것은 생성된 작업이 매우 다양하여 로봇 전략의 작업 수준 일반화를 촉진한다는 것입니다. 또한 개념적으로 GenSim을 사용하면 LLM의 추론 및 인코딩 기능이 시뮬레이션 데이터의 중간 합성을 통해 언어-시각-행동 전략으로 정제됩니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

문서 주소: https://arxiv.org/pdf/2310.01361.pdf

GenSim 프레임워크는 다음 세 부분으로 구성됩니다.

해당 작업 및 프롬프트 메커니즘 코드 구현; 작업 수준 일반화를 향상하기 위해 데이터를 생성하는 조정된 다중 작업 정책 교육 파이프라인입니다.
프레임워크는 동시에 두 가지 모드를 통해 작동합니다. 그 중 목표 지향 설정에서는 사용자가 특정 작업을 갖고 있거나 작업 과정을 설계하고 싶어합니다. 이때 GenSim은 예상되는 작업을 입력으로 삼아 관련 작업을 반복적으로 생성하여 예상되는 목표를 달성하는 하향식 접근 방식을 채택합니다. 탐색적 환경에서 대상 작업에 대한 사전 지식이 부족할 경우 GenSim은 기존 작업을 넘어서는 콘텐츠를 점진적으로 탐색하고 작업과 독립적인 기본 전략을 수립합니다.
아래 그림 1에서 연구원은 수동으로 선별된 10개의 작업이 포함된 작업 라이브러리를 초기화하고 GenSim을 사용하여 이를 확장하고 100개 이상의 작업을 생성했습니다.

연구원들은 또한 생성된 시뮬레이션 작업의 품질을 점진적으로 측정하기 위해 여러 가지 맞춤형 지표를 제안하고 목표 지향 및 탐색 설정에서 여러 LLM을 평가했습니다. GPT-4에서 생성된 작업 라이브러리의 경우 GPT-3.5 및 Code-Llama와 같은 LLM에서 감독된 미세 조정을 수행하여 LLM의 작업 생성 성능을 더욱 향상시켰습니다. 동시에 전략 훈련을 통해 과제 달성 가능성을 정량적으로 측정하고, 다양한 속성의 과제 통계와 모델 간 코드 비교를 제공합니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다. 그뿐만 아니라 연구원들은 모든 생성 작업에 대해 잘 일반화되는 다중 작업 로봇 전략을 훈련했으며 일반화 성능만 훈련한 모델에 비해 제로 샷 성능을 향상시켰습니다. GPT-4 생성 작업과의 공동 훈련은 일반화 성능을 50% 향상시키고 제로 샷 작업의 약 40%를 시뮬레이션의 새로운 작업으로 전송할 수 있습니다.

마지막으로 연구원들은 시뮬레이션에서 실제로의 전환도 고려하여 다양한 시뮬레이션 작업에 대한 사전 교육이 실제 일반화 능력을 25% 향상시킬 수 있음을 보여주었습니다.

요약하자면, 다양한 LLM에서 생성된 작업에 대해 훈련된 정책은 새로운 작업에 대한 더 나은 작업 수준 일반화를 달성하여 LLM을 통해 시뮬레이션된 작업을 확장하여 기본 정책을 훈련할 수 있는 가능성을 강조합니다.

Tenstorrent AI의 제품 관리 이사인 Shubham Saboo는 이 연구에 대해 GPT-4와 같은 LLM을 사용하여 일련의 시뮬레이션된 로봇 작업을 생성하는 로봇과 결합된 GPT-4에 대한 획기적인 연구라고 말했습니다. 자동 조종 장치를 사용하여 제로샷 학습과 로봇의 실제 적응을 현실화합니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

방법 소개

아래 그림 2와 같이 GenSim 프레임워크는 프로그램 합성을 통해 시뮬레이션 환경, 작업 및 데모를 생성합니다. GenSim 파이프라인은 작업 생성자에서 시작되며 프롬프트 체인은 대상 작업에 따라 목표 지향 모드와 탐색 모드의 두 가지 모드로 실행됩니다. GenSim의 작업 라이브러리는 이전에 생성된 고품질 작업을 저장하는 데 사용되는 인메모리 구성 요소입니다. 작업 라이브러리에 저장된 작업은 다중 작업 정책 교육 또는 LLM 미세 조정에 사용될 수 있습니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

Task Creator

아래 그림 3에서 볼 수 있듯이 언어 체인은 먼저 작업 설명을 생성한 다음 관련 구현을 생성합니다. 작업 설명에는 작업 이름, 리소스 및 작업 요약이 포함됩니다. 이 연구에서는 파이프라인에서 몇 가지 샘플 프롬프트를 사용하여 코드를 생성합니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

작업 라이브러리

GenSim 프레임워크의 작업 라이브러리는 작업 생성자가 생성한 작업을 저장하여 더 나은 새 작업을 생성하고 다중 작업 전략을 훈련합니다. 작업 라이브러리는 수동으로 생성된 벤치마크의 작업을 기반으로 초기화됩니다.

작업 라이브러리는 작업 생성자에게 설명 생성 단계의 조건으로 이전 작업 설명과 코드 생성 단계의 이전 코드를 제공하고, 작업 생성자가 다음과 같이 작업 라이브러리에서 참조 작업을 선택하도록 유도합니다. 새로운 쓰기 작업 샘플. 작업 구현이 완료되고 모든 테스트가 통과된 후 LLM은 새 작업 및 작업 라이브러리를 "반영"하고 새로 생성된 작업을 라이브러리에 추가해야 하는지 여부에 대한 포괄적인 결정을 내리라는 메시지를 받습니다.

아래 그림 4에서 볼 수 있듯이 연구에서는 GenSim이 흥미로운 작업 수준 조합 및 외삽 동작을 보이는 것도 관찰했습니다. 임무 수행 후, 이 연구에서는 Shridhar et al.(2022)과 유사한 2-스트림 전송 네트워크 아키텍처를 사용하여 이러한 작업 구현을 사용하여 데모 데이터를 생성하고 운영 정책을 교육합니다.

아래 그림 5에서 볼 수 있듯이 본 연구에서는 프로그램을 작업 및 관련 데모 데이터의 효과적인 표현으로 간주합니다(그림 5). 작업 간 임베딩 공간을 정의할 수 있으며 거리 지수는 다음과 같습니다. 인식의 다양한 요소(예: 물체의 자세 및 모양)가 더 강력합니다. 언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

실험 및 결과

이 연구는 다음과 같은 특정 질문을 대상으로 실험을 통해 GenSim 프레임워크를 검증합니다. (1) 시뮬레이션 작업을 설계하고 구현하는 데 LLM이 얼마나 효과적인가요? GenSim이 작업 생성에서 LLM의 성능을 향상시킬 수 있습니까? (2) LLM에서 생성된 업무에 대한 교육이 정책 일반화 능력을 향상시킬 수 있습니까? 더 많은 생성 작업이 주어지면 정책 교육에 더 많은 이점이 있습니까? (3) LLM 생성 시뮬레이션 작업에 대한 사전 교육이 실제 로봇 정책 배포에 도움이 됩니까?

LLM 로봇 시뮬레이션 작업의 일반화 능력을 평가합니다 언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

아래 그림 6과 같이 탐색 모드와 목표 지향 모드 작업 생성을 위해 몇 가지 샘플과 작업 라이브러리로 구성된 2단계 프롬프트 체인을 사용할 수 있습니다. 코드 생성 성공률을 효과적으로 향상시킵니다.

작업 수준 일반화

관련 업무에 대한 퓨샷 전략 최적화. 아래 그림 7의 왼쪽에서 볼 수 있듯이 LLM에서 생성된 작업을 공동으로 훈련하면 특히 데이터가 적은 상황(예: 데모 5개)에서 원래 CLIPort 작업에 대한 정책 성능을 50% 이상 향상할 수 있습니다.

보이지 않는 작업에 대한 제로샷 정책 일반화. 그림 7에서 볼 수 있듯이 LLM에서 생성된 더 많은 작업에 대한 사전 학습을 통해 모델은 원래 Ravens 벤치마크의 작업에 더 잘 일반화할 수 있습니다. 그림 7의 오른쪽 중간에서 연구원들은 수동으로 작성된 작업, 폐쇄 소스 LLM 및 오픈 소스 미세 조정 LLM을 포함하여 다양한 작업 소스에 대한 5가지 작업에 대해 사전 교육을 받았고 유사한 제로샷 작업 수준을 관찰했습니다. 일반화.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

사전 훈련된 모델을 현실 세계에 적용

연구원들은 시뮬레이션 환경에서 훈련된 전략을 실제 환경으로 옮겼습니다. 결과는 아래 표 1에 나와 있습니다. GPT-4 생성 작업 70개에 대해 사전 훈련된 모델은 9개 작업에 대해 10번의 실험을 수행했으며 평균 68.8%의 성공률을 달성했습니다. 이는 CLIPort 작업만 사전 훈련한 것보다 좋습니다. 기본 모델과 비교하면 25% 이상 향상되었으며, 50개 작업만 사전 학습한 모델과 비교하면 15% 향상되었습니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

연구원들은 또한 다양한 시뮬레이션 작업에 대한 사전 교육이 장기적으로 복잡한 작업의 견고성을 향상시키는 것을 관찰했습니다. 예를 들어, GPT-4 사전 훈련된 모델은 실제 빌드 휠 작업에서 더욱 강력한 성능을 보여줍니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

절제 실험

시뮬레이션 훈련 성공률. 아래 표 2에서 연구원들은 200개의 데모를 통해 생성된 작업의 하위 집합에 대한 단일 작업 및 다중 작업 정책 교육의 성공률을 보여줍니다. GPT-4 세대 과제에 대한 정책훈련의 평균 과제 성공률은 단일 과제 75.8%, 다중 과제 74.1%이다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.

작업 통계를 생성합니다. 아래 그림 9 (a)에서 연구원은 LLM에서 생성된 120개 작업의 다양한 기능에 대한 작업 통계를 보여줍니다. LLM 모델에서 생성된 색상, 자산, 작업 및 인스턴스 수 사이에는 흥미로운 균형이 있습니다. 예를 들어, 생성된 코드에는 7개 이상의 개체 인스턴스가 포함된 장면이 많이 포함되어 있을 뿐만 아니라 선택 및 배치 기본 동작과 블록과 같은 자산도 많이 포함되어 있습니다.

코드 생성 비교. 아래 그림 9(b)에서 연구진은 GPT-4와 Code Llama의 하향식 실험에서 실패 사례를 정성적으로 평가했습니다.

언어, 로봇 파괴, MIT 등은 GPT-4를 사용하여 시뮬레이션 작업을 자동으로 생성하고 이를 현실 세계로 마이그레이션합니다.