> 기술 주변기기 > 일체 포함 > Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

PHPz
풀어 주다: 2023-04-21 19:34:08
앞으로
1501명이 탐색했습니다.

잘보세요, 앞에 있는 남자가 로봇에게 "빨간색 블록 사이에 녹색 별을 밀어주세요", "파란색 블록을 왼쪽 하단으로 이동하세요"와 같이 끊임없이 자연어로 명령을 내리면 로봇이 응답합니다. 한 번 입력한 각 지침은 실시간으로 완료될 수 있습니다.

1960년대부터 로봇공학 전문가들은 로봇이 사람의 '자연어 지시'를 이해하고 특정 행동을 수행할 수 있도록 노력해 왔습니다.

이상적으로 미래의 로봇은 사용자가 자연어로 설명할 수 있는 모든 관련 작업에 실시간으로 반응합니다. ㅋㅋㅋ

또한 실시간 언어를 사용하면 인간과 로봇이 복잡하고 장기적인 작업에서 더 쉽게 협업할 수 있습니다. 여기서 인간은 가끔씩 구두 피드백을 통해 로봇 작업을 반복적이고 대화형으로 안내할 수 있습니다. Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

현재 관련 작업은 크게 다음 세 부분으로 나눌 수 있습니다.

1. 로봇 본체는 현실 세계에 존재해야 합니다.

2. 풍부한 자연어 명령

3. 대화형(대화형) 언어 명령 실행

능력, 즉 로봇은 작업 실행 중에 새로운 자연어 명령을 받아들여야 합니다.

세 번째 요점은 현재 로봇 분야의 대화형 개발 속도가 여전히 매우 느리기 때문에 로봇에게 "생명감"이 부족하다는 것입니다.

최근 Google은 자연어 명령을 실행하는 실제 실시간 대화형 로봇을 생성할 수 있는 새로운 프레임워크를 제안하는 논문을 발표했으며 관련 데이터 세트, 환경, 벤치마크 및 전략은 모두 공개 사용됩니다. ㅋㅋㅋ 수십만 개의 언어학적 주석이 달린 궤적 데이터 세트에 대한 행동 복제 훈련을 통해 결과 정책은 이전 작업보다 훨씬 더 많은 명령을 적절하게 실행할 수 있습니다. 실제로 연구원들은 이 방법이 87,000개의 서로 다른 자연어 문자열에서 93.5%의 성공률을 보인다고 추정했습니다.

그리고 동일한 전략을 인간이 자연어를 통해 실시간으로 안내하여 "블록으로 웃는 얼굴 만들기" 등과 같은 광범위한 정밀 장거리 재배치 목표를 해결할 수 있습니다. Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

논문과 함께 공개된 데이터 세트에는 거의 600,000개의 언어 태그 궤적이 포함되어 있으며 이는 이전에 사용 가능한 데이터 세트보다 훨씬 더 큰 규모입니다. 인터랙티브 언어: 로봇과 실시간 대화

로봇을 현실 세계에 접목시키기 위해서는 가장 중요한 것은 개방형 자연어 명령어를 처리할 수 있어야 하는데, 머신러닝 관점에서 볼 때 로봇이 공개 어휘를 배우십시오. 언어는 큰 도전입니다.

개방형 표현 모델은 작은 수정 지침 등을 포함하여 많은 작업을 수행해야 합니다. 기존 다중 작업 학습 설정은 신중하게 설계된 모방 학습 데이터 세트 또는 복잡한 강화 학습 보상 기능을 활용하여 각 작업에 대한 학습을 ​​유도하며 이러한 방식으로 설계된 사전 정의된 세트는 그다지 크지 않을 것입니다.

그러므로 개방형 어휘 작업의 핵심 질문은 로봇 데이터 수집 프로세스를 어떻게 확장하여 실제 환경에서 수천 가지 행동을 포괄할 수 있으며 이러한 모든 행동이 최종 사용자와 어떻게 관련될 수 있을까요? 실제로 자연어 지침을 제공하는 것이 가능합니까?

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

대화형 언어에서 Google이 제안하는 대규모 시뮬레이션 학습 프레임워크의 핵심은 대규모 다국어 조건의 로봇 데모 데이터 세트를 생성할 수 있는 확장성입니다.

모든 기술이 정의된 다음 각 기술에 대한 엄선된 데모가 수집된 이전 설정과 달리 연구원은 장면 재설정이나 낮은 수준의 기술 세분화 없이 여러 로봇에서 지속적으로 작업합니다.

실패한 데이터(테이블에서 블록을 떨어뜨리는 등)를 포함한 모든 데이터는 텍스트와 짝을 이루기 전에 HindSight 언어 레이블 재지정 프로세스를 거쳐야 합니다.

이 과정에서 주석 작성자는 가능한 한 많은 행동을 식별하기 위해 긴 로봇 비디오를 시청하고, 각 행동의 시작 및 종료 시간을 표시하고, 무제한 형태의 자연어를 사용하여 각 세그먼트를 설명해야 합니다.

가장 중요한 점은 이전 부트스트래핑 세트와 비교하여 훈련에 사용되는 모든 기술이 연구원이 미리 결정한 것이 아니라 데이터 자체에서 상향식으로 공개된다는 것입니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

연구원들은 의도적으로 학습 방법과 아키텍처를 최대한 단순화했습니다. 로봇 정책 네트워크는 보조 손실(보조 손실) 없이 5Hz 비디오 및 텍스트를 5Hz 로봇 동작으로 매핑하는 교차 주의 변환기입니다. . 손실) 표준 지도 학습 동작을 사용하여 대상을 복제합니다.

테스트하는 동안 새로운 자연어 명령은 최대 5Hz의 속도로 음성-텍스트를 통해 정책 네트워크로 전송될 수 있습니다.

오픈 소스 벤치마크

주석 과정에서 연구원들은 자연어 명령을 실행하는 로봇의 실제 440,000개 이상의 시연과 180,000개 이상의 시뮬레이션 시연뿐만 아니라 시연 중에 로봇이 취한 동작이 포함된 언어 표 데이터 세트를 수집했습니다. . 일련의 작업.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

이것은 또한 현재 최대 규모의 언어 조건 로봇 데모 데이터 세트로, 직접적으로 몇 배나 개선되었습니다.

Language-Table은 모델 선택에 사용하거나 다양한 방법으로 훈련된 로봇의 명령 실행 능력을 평가하는 데 사용할 수 있는 시뮬레이션 학습 벤치마크를 출시했습니다.

실시간 언어 행동 학습

실험에서 연구자들은 로봇이 실시간으로 입력된 자연어 명령을 따를 수 있을 때 로봇의 능력이 특히 강력해진다는 것을 발견했습니다.

프로젝트 웹사이트에서 연구원들은 사용자가 정밀한 조정 제어를 위해 오랜 시간이 필요한 목표를 해결하기 위해 자연어만을 사용하여 복잡한 장수평 시퀀스를 통해 로봇을 안내할 수 있음을 시연했습니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

예를 들어, 테이블 위에 블록이 많으면 "녹색 눈으로 웃는 얼굴을 만들어라" 또는 "모두 수직선으로 놓아라" 등의 명령을 내릴 수 있습니다.

로봇은 개방형 어휘집 언어를 따르도록 훈련되었기 때문에 실험에서는 로봇이 "빨간 별을 오른쪽으로 부드럽게 이동하세요"와 같은 다양한 언어 교정에 반응하는 것을 확인했습니다.

마지막으로 연구원들은 로봇 데이터 수집을 더욱 효율적으로 만드는 등 실시간 언어의 장점을 조사했습니다. 인간 조작자는 동시에 음성 언어를 사용하여 로봇 4대를 제어할 수 있으며, 이를 통해 로봇 데이터 수집 규모를 잠재적으로 확장할 수 있습니다. , 각 로봇에 주석자를 장착할 필요가 없습니다.

결론

현재 프로젝트는 데스크톱의 고정된 개체 세트로 제한되어 있지만 대화형 언어에 대한 실험 결과는 대규모 모방 학습이 실제로 무료로 따라갈 수 있는 실시간 대화형 로봇을 생성할 수 있다는 예비 징후를 제공할 수 있습니다. -form 터미널 사용자 명령.

물리 로봇의 실시간 언어 제어 기술 발전을 촉진하기 위해 연구진은 언어 조건을 기반으로 한 실제 로봇 시연 데이터 세트 중 최대 규모인 Language-Table을 오픈소스로 공개했습니다. 관련 시뮬레이션 벤치마크로.

연구원들은 이 데이터 세트의 역할이 로봇 제어 분야에만 국한되지 않고 언어 및 동작 조건부 비디오 예측, 로봇 비디오 조건부 언어 모델링 또는 더 넓은 분야의 연구에도 사용될 수 있다고 믿습니다. 머신러닝 환경 다른 많은 흥미로운 활성 이슈가 새로운 출발점을 제공합니다.

위 내용은 Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿