사람과 대화하는 것처럼 로봇에게 자신의 말로 무엇을 하라고 지시하고 싶었던 적이 있나요?
예를 들어 홈 어시스턴트 로봇에게 "점심 데워주세요"라고 말하면 스스로 전자레인지를 찾아줍니다. 놀랍죠?
언어는 인간이 자신의 의도를 표현하는 가장 직관적인 방법이지만, 오랫동안 사람들은 로봇을 제어하기 위해 손으로 쓴 코드에 크게 의존했습니다. 하지만 ChatGPT가 나타나면 상황은 달라집니다.
최근 연구에서 Microsoft 팀은 OpenAI의 새로운 AI 언어 모델 ChatGPT를 사용하여 자연스러운 인간-컴퓨터 상호 작용을 가능하게 하는 방법을 모색하고 있습니다.
문서 링크: https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf
ChatGPT는 텍스트 및 A 언어입니다. 광범위한 프롬프트와 질문에 대해 일관되고 문법적으로 정확한 응답을 생성할 수 있도록 인간 상호 작용의 코퍼스에 대해 훈련된 모델입니다. 이 연구의 목표는 ChatGPT가 텍스트를 넘어 생각하고 실제 세계에 대해 추론하여 로봇이 작업을 완료하도록 도울 수 있는지 확인하는 것입니다. 연구자들은 복잡한 프로그래밍 언어나 로봇 시스템의 세부 사항을 배우지 않고도 사람들이 로봇과 더 쉽게 상호 작용할 수 있기를 바라고 있습니다.
연구의 핵심 과제는 물리 법칙, 작동 환경, 로봇이 신체 움직임을 사용하여 주변 환경을 변경하는 방식을 고려하여 ChatGPT에 문제 해결 방법을 가르치는 것입니다.
ChatGPT는 자체적으로 많은 작업을 수행할 수 있지만 여전히 도움이 필요합니다. 이 논문에서 팀은 임시 프롬프트 구조, 고급 API 및 인간 텍스트를 통한 피드백을 포함하여(이에 국한되지 않음) 로봇 작업을 해결하는 데 언어 모델을 안내하는 데 사용할 수 있는 일련의 설계 원칙을 설명합니다. 연구자들은 이 연구가 로봇 시스템 개발에 있어 변화의 시작일 뿐이라고 믿으며, 이 연구가 다른 연구자들이 이 흥미로운 연구 분야에 참여하도록 영감을 주기를 바랍니다.
현재 로봇 작동 프로세스는 작업 요구 사항을 시스템 코드로 변환해야 하는 엔지니어 또는 기술 사용자로부터 시작됩니다. 엔지니어는 워크플로의 루프에 참여하여 로봇의 동작을 수정하기 위해 지속적으로 새로운 코드와 사양을 작성합니다. 전반적으로 프로세스는 느리고(사용자가 낮은 수준의 코드를 작성해야 함) 비용이 많이 들고(로봇 공학에 대한 심층적인 지식을 갖춘 고도로 숙련된 사용자 필요) 비효율적입니다(제대로 작동하려면 여러 상호 작용 필요).
그러나 ChatGPT는 새로운 봇 패러다임을 열어 잠재적으로 기술 지식이 없는 사용자가 루프에 참여할 수 있게 하여 봇 성능을 모니터링하는 동시에 대규모 언어 모델(LLM)을 제공합니다. 고급 피드백. 연구된 설계 원칙에 따라 ChatGPT는 로봇 시나리오용 코드를 생성할 수 있습니다. 미세 조정 없이 이 연구에서는 LLM 지식을 활용하여 다양한 작업에 대해 다양한 로봇 형태를 제어합니다. 연구원들은 작업에서 로봇 문제를 해결하는 ChatGPT의 여러 예는 물론 운영, 항공 및 내비게이션 도메인의 복잡한 로봇 배포를 시연했습니다.
LLM 유도는 고도로 실증적인 과학입니다. 연구에서는 시행착오를 통해 로봇 작업에 대한 프롬프트를 작성하기 위한 일련의 방법과 설계 원칙을 확립했습니다.
사용자가 솔루션에 만족하면 마침내 코드가 로봇에 배포될 수 있습니다.
몇 가지 예를 살펴보겠습니다. 저장소에서 더 많은 사례 연구를 찾을 수 있습니다.
연구원들은 ChatGPT가 실제 드론을 제어할 수 있도록 했고, 이는 기술 지식이 없는 사용자와 로봇 사이의 매우 직관적인 언어 기반 인터페이스임이 입증되었습니다. 사용자 지침이 모호한 경우 ChatGPT는 명확한 질문을 하고 드론이 지그재그 패턴과 같은 아키텍처를 시각적으로 검사할 수 있도록 복잡한 코드 구조를 작성합니다. 셀카 찍는 법도 배웠어요! 또한 연구원들은 Microsoft AirSim 시뮬레이터를 사용하여 시뮬레이션된 산업 검사 시나리오에서 ChatGPT를 사용했습니다. 이 모델은 사용자의 높은 수준의 의도와 기하학적 단서를 효과적으로 분석하여 드론을 정확하게 제어할 수 있습니다.
복잡한 작업에 대화가 필요한 경우
다음으로 연구원들은 로봇 팔 작동 시나리오에 ChatGPT를 사용하고 대화 피드백을 사용하여 모델을 가르쳤습니다. 처음에 제공된 API를 보다 복잡한 고급 기능으로 결합하는 방법: ChatGPT 자동 프로그래밍. 이 모델은 블록 쌓기와 같은 작업을 수행하기 위해 커리큘럼 기반 전략을 사용하여 학습한 기술을 논리적으로 서로 연결할 수 있습니다.
또한 이 모형은 나무 블록으로 Microsoft 로고를 만들 때 텍스트 도메인과 물리적 도메인을 연결하는 완벽한 예를 보여줍니다. 내부 지식 베이스에서 로고를 불러올 수 있을 뿐만 아니라 로고를 (SVG 코드로) "그릴" 수 있으며 위에서 학습한 기술을 사용하여 기존 로봇의 움직임 중 어떤 것이 로봇의 움직임을 구성할 수 있는지 알아낼 수 있습니다. 모습. 다음으로 연구원들은 ChatGPT에게 드론이 장애물에 부딪히지 않고 공중 목표물에 도달할 수 있는 알고리즘을 작성해 달라고 요청했습니다. 그들은 모델에 드론에 전방을 향한 거리 센서가 있다고 말했고 ChatGPT는 알고리즘의 주요 구성 요소 대부분을 즉시 프로그래밍했습니다. 이 작업에는 인간과의 대화가 필요하며 언어 피드백만 사용하여 현지화된 코드를 개선하는 ChatGPT의 능력은 인상적입니다. 인식-행동 루프: 로봇은 행동하기 전에 세상을 인식합니다. 무언가(행동)를 하기 전에 세상을 인식하는 능력(지각)은 모든 로봇 시스템의 기본입니다. 그래서 연구원들은 이 개념에 대한 ChatGPT의 이해를 테스트하기로 결정하고 사용자가 지정한 개체를 찾을 때까지 환경을 탐색하도록 요청했습니다. 이 연구는 모델에 객체 감지 및 객체 거리 API와 같은 기능을 제공하고 생성된 코드가 감지-동작 루프를 성공적으로 구현하는지 확인합니다.실험 단계에서 연구원들은 ChatGPT가 센서 피드백을 기반으로 로봇이 어디로 가야 하는지에 대한 실시간 결정을 내릴 수 있는지 평가하기 위해 추가 실험을 수행했습니다(ChatGPT가 이러한 결정을 내리기 위해 코드 루프를 생성하도록 하는 대신). 흥미롭게도 카메라 이미지에 대한 텍스트 설명이 대화의 각 단계에 입력될 수 있다는 사실이 확인되었고, 모델은 로봇이 특정 물체에 도달할 때까지 로봇을 제어하는 방법을 알아낼 수 있었습니다.
PromptCraft, LLM + 로봇공학 연구를 위한 협업 오픈 소스 도구
Prompt 디자인 외에도 연구에서는 사용자가 ChatGPT 생성 알고리즘을 테스트할 수 있는 여러 봇 시뮬레이터와 인터페이스가 포함되기를 희망합니다. 연구의 시작으로, 연구는 누구나 이러한 아이디어를 개발하는 데 사용할 수 있는 ChatGPT와 통합된 AirSim 환경도 출시했습니다.
ChatGPT-AirSim 인터페이스
이러한 기술의 출시는 로봇 기술의 관객을 확대할 것이기 때문에 축하할 가치가 있는 일입니다. Microsoft 연구원들은 언어 기반 로봇 제어가 로봇을 과학 실험실에서 벗어나 일반 사용자의 삶으로 가져오기 위한 기반을 마련할 것이라고 믿습니다.
이 기사에서는 ChatGPT의 출력이 신중한 분석 없이 로봇에 직접 배포되지 않는다는 점을 강조하고 싶습니다. 연구원들은 잠재적인 실제 배포 전에 이러한 알고리즘을 평가하고 항상 필요한 안전 예방 조치를 취하기 위해 사용자가 시뮬레이션의 힘을 활용하도록 권장합니다. 이 기사에서 설명하는 작업은 로봇 공학 분야에서 작동하는 대규모 언어 모델의 교차점에서 가능한 것의 작은 부분만을 나타내며 더 많은 연구에 영감을 주기를 바랍니다.
원본 링크: https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/
위 내용은 내가 ChatGPT와 채팅을 하고 있는 동안 누군가 이미 ChatGPT를 사용하여 로봇 작업을 제어하기 시작했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!