대규모 언어 모델의 개발과 함께 로봇이 복잡한 지침을 이해하고 더 고급 작업을 완료하도록 안내하는 기능을 사용할 수 있습니까? 그리고 이 과정에서 우리는 어떤 어려움에 직면하게 될까요? 최근 Zhiyuan 커뮤니티는 Google 연구 과학자인 Xia Fei 박사를 초대하여 "언어 및 비전에 기반한 구체화된 추론"에 대한 보고서를 제공하고 이 신흥 분야에서 팀의 최첨단 작업을 자세히 설명했습니다.
저자 소개: Xia Fei는 현재 Google Brain 로봇팀에서 연구 과학자로 일하고 있습니다. 그의 주요 연구 방향은 구조화되지 않은 복잡한 환경에 로봇을 적용하는 것입니다. 대표작으로는 GibsonEnv, iGibson, SayCan 등이 있다. 그의 연구는 WIRED, Washington Post, New York Times 및 기타 언론에 보도되었습니다. Xia Fei 박사는 스탠포드 대학을 졸업하고 Silvio Savarese와 Leonidas Guibas 밑에서 공부했습니다. 그는 CVPR, CoRL, IROS, ICRA, Neurips, RA-L, Nature Communications 등과 같은 컨퍼런스 및 저널에 많은 기사를 게재했습니다. 그의 최근 연구 방향은 지능형 에이전트의 의사결정 과정에서 기초 모델(Foundation Models)을 활용하는 것이다. 그의 팀은 최근 PaLM-SayCan 모델을 제안했습니다.
로봇을 위한 기계 학습은 최근 몇 년 동안 큰 발전을 이루었지만 여전히 큰 문제가 있습니다. 머신러닝을 훈련하려면 많은 데이터가 필요하지만 로봇이 생성하는 데이터는 매우 비싸고 로봇 자체도 손실될 수 있습니다.
인간은 어렸을 때 놀이를 통해 물리적 세계와 상호 작용하고 많은 물리적 법칙을 배웁니다. 이에 영감을 받아 로봇도 환경과 상호 작용하여 이러한 물리적 정보를 획득하여 다양한 작업을 완료할 수 있습니까? 로봇에 기계 학습을 적용하는 것은 시뮬레이션 환경에 크게 의존합니다.
이와 관련하여 Xia Fei 박사와 그의 동료들은 Gibson Env(환경) 및 iGibson과 같은 작업을 제안했습니다. 전자는 시각적 환경 재구성에 중점을 두고 있으며 후자는 물리적 시뮬레이션에 중점을 두고 있습니다. 실제 세계를 3차원 스캐닝하고 재구성하고 신경망을 통해 시각적 신호를 렌더링함으로써 시뮬레이션 환경이 조성되어 다양한 로봇이 물리적 시뮬레이션을 수행하고 시간 센서부터 액추에이터까지 제어를 학습할 수 있습니다. iGibson 환경에서 로봇은 식기세척기 사용 방법을 배우는 등 환경과 더욱 풍부한 상호 작용을 배울 수 있습니다.
Dr. Xia Fei는 위의 작업이 인터넷 AI에서 구체화된 AI로의 전환을 나타낸다고 믿습니다. 과거 AI 훈련은 주로 인터넷 업무였던 ImageNet, MS COCO 등의 데이터셋을 기반으로 이뤄졌다. 구체화된 AI는 닫힌 루프를 형성하기 위해 AI의 인식과 행동이 필요합니다. AI는 인식된 결과에 따라 다음 행동을 결정해야 합니다. Xia Fei의 박사 학위 논문 "체화된 인식 및 로봇 학습을 위한 대규모 시뮬레이션"은 학습, 인식 및 추론을 위한 대규모 로봇 시뮬레이션에 관한 것입니다.
최근 인공지능 분야에서는 기본모델이 급속도로 발전하고 있습니다. 일부 연구자들은 시뮬레이션 환경에 의존하는 대신 기본 모델에서 정보를 추출하여 로봇이 결정을 내리는 데 도움을 줄 수 있다고 믿습니다. Xia Fei 박사는 이 새로운 방향을 "의사결정을 위한 기초 모델"이라고 불렀고, 그와 그의 팀은 PaLM-SayCan과 같은 작업을 제안했습니다.
PaLM-SayCan 팀은 총 45명의 저자로 구성되어 있습니다. 이는 Google Robotics 팀과 Everyday Robots 간의 공동 프로젝트입니다. 기계 학습을 사용하여 로봇 공학 분야를 변화시키는 것이 목적입니다. , 로봇이 데이터를 제공하여 기계 학습 기능을 향상하도록 합니다. 연구는 구조화되지 않은 복잡한 환경과 로봇을 일상 생활에서 더욱 유용하게 만드는 두 가지 문제에 중점을 둡니다.
Siri나 Alexa와 같은 개인 비서가 이미 있지만 로봇 분야에는 그런 존재가 없습니다. Xia 박사는 다음과 같은 예를 들었습니다. 음료수를 쏟았을 때 우리는 로봇에게 상황을 설명하고 도움을 요청하고 싶습니다. 혹은 운동 후 피곤하면 음료수나 간식을 달라고 하세요. 연구에서는 로봇이 이러한 작업을 이해하고 수행할 수 있기를 바랍니다.
현재 어려운 점은 로봇이 장기 또는 장거리 작업을 수행하기가 여전히 어렵고 복잡한 계획, 상식 및 추론이 필요한 작업을 수행할 수 없다는 것입니다. 그 이유는 두 가지입니다. 겹. 첫 번째는 로봇 분야에서 좋은 사용자 상호 작용 인터페이스가 부족하다는 것입니다. 기존 로봇은 Pick&Place 작업을 수행할 때 일반적으로 Goal-conditioning 또는 One-hot Conditioning 방법을 사용합니다. 목표 조건은 로봇에게 목표가 무엇인지 알려주고 로봇이 초기 조건을 목표 조건으로 변경하는 작업을 수행하도록 해야 합니다. 이를 위해서는 먼저 완료된 작업 조건이 어떤 것인지 로봇에게 시연해야 합니다.
그리고 원-핫 컨디셔닝은 원-핫 코딩을 사용하며, 로봇이 완료할 수 있는 모든 작업(예: 100개 작업)은 0부터 99까지 번호가 매겨져 있습니다. 실행해야 할 때마다 로봇에 번호가 제공되며 로봇은 어떤 작업을 완료해야 하는지 알고 있습니다. 그러나 원-핫 조건의 문제점은 사용자가 각 작업에 해당하는 인코딩을 기억해야 하고, 원-핫 인코딩은 작업 간 종속성 정보(예: 목표에 해당하는 작업 인코딩 시퀀스 완료 등)를 얻지 못한다는 점입니다. ).
결과적으로 현재의 로봇은 일반적으로 잡기 및 놓기 등 단거리 작업만 완료할 수 있으며 로봇 자체는 이동하기보다는 정적입니다. 또한 환경도 실험실과 같은 장면으로 제한되며 종종 사람이 없는 경우도 있습니다.
이 문제를 해결하기 위해 팀에서는 기본 모델을 사용하는 것을 생각했습니다. 언어 모델은 목표 조건화를 대체하고 언어를 통해 작업을 명확하고 모호하지 않게 설명할 수 있습니다. 동시에 언어에는 레시피의 첫 번째 단계와 두 번째 단계와 같은 작업 단계 간의 종속성 정보도 포함되어 로봇 학습을 돕습니다. 또한 언어는 장기 과제를 정의하고 모방 학습 방법의 한계를 해결하는 데에도 사용될 수 있습니다.
로봇에 대형 모델을 사용하면 몇 가지 어려움에 직면할 수 있습니다. 가장 중요한 것은 로봇의 출력을 지향하는 언어를 결정하는 것입니다. 대형 모델은 인간의 자연어를 기반으로 훈련되며, 출력되는 작업은 로봇에게는 불가능할 수 있습니다. 그리고 언어 모델은 로봇의 데이터에 대해 훈련되지 않았기 때문에 로봇의 능력 범위를 알지 못합니다. 두 번째는 접지 문제이다. 대형 모델은 물리적 세계를 직접 경험하지 못했고 구체화된 정보도 부족하다. 세 번째는 대형 모델의 안내에 따른 로봇 자체의 안전성과 해석 가능성이다. 언어 모델의 편견은 물리적 시스템과의 연관성으로 인해 증폭되어 실제 결과를 초래할 수 있습니다.
신뢰성의 예가 있습니다. 인간 사용자가 Google의 LaMDA 모델과 통신할 때 사용자가 모델에게 "가장 좋아하는 섬"이라고 묻고, 모델은 그리스 크레타라고 대답할 수도 있고 몇 가지 이유를 제시할 수도 있습니다. 하지만 이 결과는 신빙성이 없다. 왜냐하면 AI가 주어야 할 결과는 "나는 어떤 섬에도 가본 적이 없기 때문에 내가 어떤 섬을 가장 좋아하는지 모른다"이기 때문이다. 언어 모델의 문제점은 실제 세계와 상호 작용하지 않고 통계 규칙에 따라 가장 가능성 있는 다음 문장만 출력한다는 것입니다.
로봇에 언어 모델을 사용하는 경우 모델마다 다른 결과가 나오며, 그 중 일부는 로봇을 구동하여 작업을 수행하는 데 유용하지 않습니다. 예를 들어, 사용자가 로봇에게 "흘린 음료수를 치워주세요"라고 요청하면 GPT-3는 "진공청소기를 사용해도 됩니다"라고 말할 수 있습니다. 진공청소기는 액체를 청소할 수 없기 때문에 이 결과는 완전히 정확하지 않습니다.
LaMDA 모델인 경우 LaMDA가 "청소기를 찾는 데 도움을 드릴까요?"라고 말할 수 있습니다. 이 답변은 정상이지만 LaMDA가 대화 자료를 미세 조정하는 것이 목표이므로 실용적이지 않습니다. 기능은 작업 완료에 도움이 되는 것이 아니라 가능한 한 대화의 길이를 연장하는 것입니다. FLAN 모델인 경우 "죄송합니다. 진심이 아니었습니다."라고 응답하지만 사용자의 의도를 이해하지 못합니다. 대화인가요? 아직도 문제를 해결해야 합니까? 따라서 로봇에 대규모 언어 모델을 사용하는 데에는 일련의 문제가 있습니다.
PaLM-SayCan은 이러한 문제를 해결하기 위해 노력합니다. 첫 번째는 Few-shot Prompting(퓨샷 학습)을 통해 대형 모델이 로봇의 언어를 말할 수 있도록 하는 것입니다. 예를 들어, "커피를 찬장에 가져가세요", "오렌지 주세요" 등과 같은 작업을 구성하고 해당 단계(예: 1-5 및 1-3)를 제공합니다. 그런 다음 사용자는 모델에게 "테이블 위에 사과를 올려 놓으세요"라는 지시를 내립니다. 이전 단계 프롬프트가 표시되면 모델은 자체적으로 적절한 작업 단계를 찾아 결합하고 작업을 단계별로 완료하기 위한 계획을 생성합니다.
대형 모델에는 두 가지 주요 상호 작용 방법이 있다는 점에 유의해야 합니다. 하나는 입력을 기반으로 다음 토큰을 생성하는 생성 인터페이스입니다. 공식(점수 인터페이스)은 주어진 토큰에 대한 우도 함수를 계산합니다. PaLM-SayCan은 채점 방식을 사용하여 언어 모델을 더욱 안정적이고 쉽게 원하는 결과를 출력할 수 있도록 해줍니다. 사과를 놓는 작업에서 모델은 다양한 단계의 점수를 매기고 적절한 결과를 선택합니다.
해결해야 할 또 다른 문제가 있습니다. 언어 모델은 작업 단계를 생성할 때 로봇의 현재 상황을 알지 못하면 무엇을 할 수 있습니까? 로봇 앞에 사과가 없으면 로봇은 사과를 놓는 작업을 완료할 수 없습니다. 따라서 이를 위해서는 현재 환경과 상태에서 로봇이 어떤 작업을 수행할 수 있는지 언어 모델에 알려야 합니다. 여기서는 Robotic Affordances(로봇 어포던스)이라는 새로운 개념을 도입해야 하는데, 이것이 이 작업의 핵심이기도 합니다.
어포던스(Affordance)를 중국어로 번역하면 어포던스(Affordances)라고 합니다. 1977년경 미국 심리학자 제임스 J. 깁슨(James J. Gibson)이 제안한 개념입니다. 은 에이전트가 환경에서 수행할 수 있는 작업으로 정의됩니다. 현재 상태는 어포던스를 나타냅니다. 지도 학습을 사용하여 여유도를 얻을 수 있지만 이를 위해서는 많은 양의 데이터와 라벨링이 필요합니다.
이와 관련하여 팀에서는 강화 학습 방법을 채택하고 정책의 가치 함수를 사용하여 어포던스를 근사화했습니다. 예를 들어, 로봇이 환경에 있는 다양한 물건을 잡도록 훈련시킨 후 로봇이 방을 탐색하게 하면 물건을 집는 가치 함수가 매우 높아질 것입니다. 사용 가능한 항목.
어포던스와 언어 모델을 결합하여 PaLM-SayCan 알고리즘을 얻습니다. 위 그림에서 볼 수 있듯이 왼쪽은 언어 모델로, 사용자의 지시에 따라 로봇이 완료할 수 있는 작업을 점수로 매기고, 하위 작업을 완료하면 전체 작업을 완료하는 데 도움이 될 확률을 계산합니다. 오른쪽은 현재 상태에서 각 작업을 완료할 확률을 나타내는 가치 함수입니다. 둘의 곱은 로봇이 전체 작업에 기여하는 하위 작업을 성공적으로 완료할 확률을 나타냅니다. Apple의 예에서는 현재 상태에서는 로봇 앞에 사과가 없습니다. 이 작업을 완료하려면 가장 먼저 사과를 찾는 것이므로 사과를 찾는 어포던스 점수가 상대적으로 높으며, 사과 잡기 점수가 낮습니다. 사과를 찾은 후에는 사과 잡기에 대한 어포던스 점수가 증가하고, 사과 잡기 작업을 수행하게 된다. 이 과정은 전체 작업이 완료될 때까지 반복됩니다.
PaLM-SayCan 외에도 Dr. Xia와 동료들은 다른 관련 작업도 완료했습니다. Prompt 측면에서 팀은 언어 모델에 더 많은 추론 기능을 제공하기 위해 Chain of Thought Prompting(문제 해결 아이디어로 이해될 수 있음)을 제안했습니다.
표준 프롬프트 모드는 질문 템플릿을 디자인하고 답변을 제공하는 것입니다. 모델은 추론 중에 답변을 출력하지만 모델이 제공하는 답변이 잘못된 경우도 있습니다. 따라서 Chain of Thought Prompting의 목표는 문제를 제공하면서 모델에 대한 설명을 제공하는 것입니다. 이를 통해 모델의 결과를 크게 향상할 수 있고 일부 작업에서는 인간 수준을 능가할 수도 있습니다.
모델은 부정문을 처리할 때 오류가 발생하기 쉽습니다. 예를 들어, 인간 사용자가 "과일은 주되 사과는 주지 마세요"라고 요청했습니다. 질문과 실행 옵션 모두에 사과가 있기 때문에 모델은 사과를 제공하는 경향이 있습니다. Chain of Thought Prompting을 사용하면 몇 가지 설명이 제공될 수 있습니다. 예를 들어, 모델은 "사용자가 과일을 원하지만 사과는 원하지 않습니다. 바나나는 사과가 아니라 과일입니다. 사용자에게 바나나를 줄 수 있습니다."라고 출력합니다.
생각의 사슬 프롬프트는 더 미묘한 부정적인 요구 사항도 해결할 수 있습니다. 예를 들어, 사용자가 카페인에 대한 알레르기를 표현하고 로봇에게 음료수를 요청합니다. 알레르기는 부정의 또 다른 미묘한 형태입니다. 전통적인 방법을 사용하면 로봇은 알레르기가 나타내는 부정을 이해하지 못한 채 카페인이 함유된 음료에 접근할 수 있습니다. 연쇄 사고 유도는 알레르기 등을 설명하고 추론 효과를 향상시킬 수 있습니다.
로봇 의사 결정과 환경 상호 작용을 위한 대형 모델을 결합하는 것도 중요한 연구 방향입니다. 연구팀은 언어 모델이 환경 변화에 따른 과거 결정을 검토하고, 잘못된 지시나 환경으로 인한 사고로부터 회복할 수 있도록 하는 것을 목표로 하는 내부 독백(Inner Monologue) 작업을 제안했다. 예를 들어, 인간이 집에 가서 선택한 키로 문을 열 수 없다는 것을 알게 되면 다른 키를 시도하거나 회전 방향을 변경하도록 선택합니다. 이것이 구현하는 것은 환경의 피드백을 기반으로 오류를 수정하고 새로운 작업을 업데이트하는 것입니다. 내면의 독백은 이런 식으로 작동합니다. 예를 들어 로봇이 콜라를 집는 중에 콜라가 떨어지면 후속 작업을 완료할 수 없습니다. 작업이 성공적으로 완료되었는지 감지하고 의사 결정 과정에 피드백을 적용하고 이를 기반으로 새로운 결정을 내리기 위해서는 내부 독백이 필요합니다. 피드백 결정.
그림과 같이 내부 독백 작업에는 Active Scene Description과 Task Success Detector가 포함됩니다. 인간이 지시를 내리면 모델은 지시를 실행하고 시나리오 설명을 활성화하여 로봇의 의사결정을 지원할 수 있습니다. 훈련 과정은 여전히 Few-shot Prompt 방법을 사용하므로 하나의 예에서 추론을 도출할 수 있습니다. 예를 들어, 로봇이 음료수를 마시라는 지시를 받으면 인간에게 콜라를 마실지 탄산음료를 마실지 묻습니다.
또 다른 사례는 언어 모델에 의한 역사적 정보 추론입니다. 많은 경우 인간은 명령을 내린 후 마음을 바꾸거나, 명령을 바꾼 후 로봇에게 "정당한 작업"을 완료하도록 요청합니다. 여러 번. 여기서는 "just task"가 지정되지 않았으며, 이를 위해서는 모델이 이전 작업이 무엇인지 확인하기 위해 기록을 되돌아보아야 합니다. 내면의 독백은 영어 외에도 현재 중국어 및 기타 언어로 제공됩니다. 다른 분야에서 실험한 후 팀은 이 환경 피드백 방법이 매우 복잡하고 폐쇄 루프 계획 작업을 완료할 수 있다는 것을 발견했습니다.
04 Q&A
Q: PaLM-SayCan의 대규모 언어 모델은 처음부터 학습되나요? 아직도 모델만 사용하고 있습니다.
A: 대규모 예측 모델은 미세 조정할 필요가 없으며 이미 많은 의사결정 정보를 포함하고 있습니다. 예를 들어, 1,750억 개의 매개변수가 있는 GPT-3 또는 이미 충분한 임무 계획 및 순서 정보가 포함된 PaLM을 사용할 수 있습니다.
Q: 내면의 독백 작업을 할 때 에이전트가 주도적으로 질문도 하게 되나요? 이건 어떻게 흡수됐나요?
A: 로봇이 작업을 완료하면 "그리고 물어보기"와 "계속하기" 두 가지 옵션이 나타납니다. 질문을 할 것인지 계속할 것인지는 문맥적 의미에 모호성이 있는지 여부에 따라 달라집니다. Q: 로봇은 품목(서랍 안의 감자칩 등)이 어디에 있는지 어떻게 알 수 있나요? 앞으로 로봇의 능력이 점차 향상된다면 탐색 시 탐색 공간이 너무 커지지 않을까요? A: 로봇의 물품 보관 위치에 대한 지식은 현재 하드 코딩되어 있으며 자동 프로세스가 아닙니다. 그러나 대규모 언어 모델에는 항목이 어디에 있는지와 같은 특정 의미론적 지식도 포함되어 있습니다. 이러한 의미론적 지식은 검색 공간을 줄일 수 있습니다. 동시에 아이템 발견 확률에 따라 탐색도 할 수 있습니다. 현재 Xia Fei 팀은 이 문제를 해결하기 위한 새로운 작업을 발표했습니다. 핵심 아이디어는 자연어 색인 장면 표현을 구축하는 것입니다. 참고 웹사이트 nlmap-saycan.github.io Q: 게다가 최근 몇 년간 등장한 계층적 강화학습이 복잡한 작업 계획에 영감을 주나요? PaLM-SayCan은 하위 수준의 기술과 상위 수준의 작업 계획을 가지고 있지만 계층적 강화는 아닙니다. 학습. 저는 개인적으로 이러한 계층적 접근 방식을 선호합니다. 작업을 계획할 때 모든 세부 단계를 반드시 수행할 필요가 없어 시간 낭비가 되기 때문입니다. 임무 계획은 방대한 인터넷 데이터를 사용하여 훈련할 수 있지만 기본 기술에는 물리적 데이터가 필요하므로 환경과 상호 작용하고 학습해야 합니다. Q: PaLM-SayCan이 실제로 로봇에 사용되는 근본적인 문제가 남아 있나요? 매일 보모의 대체품으로 사용할 수 있다면 그것을 실현하는 데 얼마나 걸립니까? A: 아직 해결되지 않은 근본적인 문제가 몇 가지 있으며 이는 단순한 엔지니어링 문제가 아닙니다. 원칙적으로 로봇의 기본 모션 제어 및 파악은 큰 과제입니다. 우리는 여전히 100% 파악 성공을 달성할 수 없으며 이는 큰 문제입니다. 물론 이동이 제한된 사람들에게 이미 어느 정도 가치를 제공할 수 있습니다. 하지만 실제로 상용 제품이라면 아직은 불가능하다. 미션 성공률은 90% 수준으로 상용 요구 사항을 충족하지 못한다. Q: 로봇 계획의 성공률은 훈련 데이터 세트에 따라 제한되나요? A: 로봇의 계획 능력은 훈련 코퍼스에 의해 제한됩니다. "쓰레기를 버리세요"와 같은 몇 가지 지침을 말뭉치에서 쉽게 찾을 수 있습니다. 하지만 사람들이 인터넷에 이런 정보를 남기지 않기 때문에 "로봇의 두 손가락 발톱을 오른쪽으로 10센티미터씩 움직인다" 같은 말뭉치는 거의 없다. 이는 세분화된 정보 문제와 관련이 있습니다. 현재 코퍼스의 제한으로 인해 로봇은 대략적인 작업만 완료할 수 있습니다. 반면, 세밀한 계획 자체는 언어 모델로 수행해서는 안 됩니다. 물리적인 정보가 너무 많고 인간의 언어로 설명할 수 없을 수도 있기 때문입니다. 한 가지 아이디어는 모방 학습(BC-Z 작업 참조) 또는 코드 생성(팀의 최신 작업 https://code-as-policies.github.io/ 참조)을 사용하여 세분화된 작업을 구현할 수 있다는 것입니다. 대형 모델의 더 큰 역할은 사용자의 대화형 인터페이스 역할을 하고, 인간이 로봇에 제공한 지침을 해석하고, 이를 기계가 실행할 수 있는 단계로 분해하는 것입니다. 또한 언어는 추가적인 물리적 계획 없이도 높은 수준의 의미론적 계획을 수행할 수 있습니다. 세분화된 계획 작업을 달성하려면 여전히 모방 학습이나 강화 학습에 의존해야 합니다.
위 내용은 Google 과학자들이 개인적으로 이야기합니다. 구체화된 추론을 구현하는 방법은 무엇입니까? 대형 모델이 로봇의 언어를 '말하게' 하세요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!