Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.-일체 포함-php.cn

오픈 소스 벤치마크

실시간 언어 행동 학습

결론

집

기술 주변기기

일체 포함

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

PHPz

Apr 21, 2023 pm 07:34 PM

Google 기계 인간

잘보세요, 앞에 있는 남자가 로봇에게 "빨간색 블록 사이에 녹색 별을 밀어주세요", "파란색 블록을 왼쪽 하단으로 이동하세요"와 같이 끊임없이 자연어로 명령을 내리면 로봇이 응답합니다. 한 번 입력한 각 지침은 실시간으로 완료될 수 있습니다.

1960년대부터 로봇공학 전문가들은 로봇이 사람의 '자연어 지시'를 이해하고 특정 행동을 수행할 수 있도록 노력해 왔습니다.

이상적으로 미래의 로봇은 사용자가 자연어로 설명할 수 있는 모든 관련 작업에 실시간으로 반응합니다. ㅋㅋㅋ

또한 실시간 언어를 사용하면 인간과 로봇이 복잡하고 장기적인 작업에서 더 쉽게 협업할 수 있습니다. 여기서 인간은 가끔씩 구두 피드백을 통해 로봇 작업을 반복적이고 대화형으로 안내할 수 있습니다. Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

현재 관련 작업은 크게 다음 세 부분으로 나눌 수 있습니다.

1. 로봇 본체는 현실 세계에 존재해야 합니다.

2. 풍부한 자연어 명령

3. 대화형(대화형) 언어 명령 실행

능력, 즉 로봇은 작업 실행 중에 새로운 자연어 명령을 받아들여야 합니다.

세 번째 요점은 현재 로봇 분야의 대화형 개발 속도가 여전히 매우 느리기 때문에 로봇에게 "생명감"이 부족하다는 것입니다.

최근 Google은 자연어 명령을 실행하는 실제 실시간 대화형 로봇을 생성할 수 있는 새로운 프레임워크를 제안하는 논문을 발표했으며 관련 데이터 세트, 환경, 벤치마크 및 전략은 모두 공개 사용됩니다. ㅋㅋㅋ 수십만 개의 언어학적 주석이 달린 궤적 데이터 세트에 대한 행동 복제 훈련을 통해 결과 정책은 이전 작업보다 훨씬 더 많은 명령을 적절하게 실행할 수 있습니다. 실제로 연구원들은 이 방법이 87,000개의 서로 다른 자연어 문자열에서 93.5%의 성공률을 보인다고 추정했습니다.

그리고 동일한 전략을 인간이 자연어를 통해 실시간으로 안내하여 "블록으로 웃는 얼굴 만들기" 등과 같은 광범위한 정밀 장거리 재배치 목표를 해결할 수 있습니다. Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

논문과 함께 공개된 데이터 세트에는 거의 600,000개의 언어 태그 궤적이 포함되어 있으며 이는 이전에 사용 가능한 데이터 세트보다 훨씬 더 큰 규모입니다. 인터랙티브 언어: 로봇과 실시간 대화

로봇을 현실 세계에 접목시키기 위해서는 가장 중요한 것은 개방형 자연어 명령어를 처리할 수 있어야 하는데, 머신러닝 관점에서 볼 때 로봇이 공개 어휘를 배우십시오. 언어는 큰 도전입니다.

개방형 표현 모델은 작은 수정 지침 등을 포함하여 많은 작업을 수행해야 합니다. 기존 다중 작업 학습 설정은 신중하게 설계된 모방 학습 데이터 세트 또는 복잡한 강화 학습 보상 기능을 활용하여 각 작업에 대한 학습을 유도하며 이러한 방식으로 설계된 사전 정의된 세트는 그다지 크지 않을 것입니다.

그러므로 개방형 어휘 작업의 핵심 질문은 로봇 데이터 수집 프로세스를 어떻게 확장하여 실제 환경에서 수천 가지 행동을 포괄할 수 있으며 이러한 모든 행동이 최종 사용자와 어떻게 관련될 수 있을까요? 실제로 자연어 지침을 제공하는 것이 가능합니까?

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

대화형 언어에서 Google이 제안하는 대규모 시뮬레이션 학습 프레임워크의 핵심은 대규모 다국어 조건의 로봇 데모 데이터 세트를 생성할 수 있는 확장성입니다.

모든 기술이 정의된 다음 각 기술에 대한 엄선된 데모가 수집된 이전 설정과 달리 연구원은 장면 재설정이나 낮은 수준의 기술 세분화 없이 여러 로봇에서 지속적으로 작업합니다.

실패한 데이터(테이블에서 블록을 떨어뜨리는 등)를 포함한 모든 데이터는 텍스트와 짝을 이루기 전에 HindSight 언어 레이블 재지정 프로세스를 거쳐야 합니다.

이 과정에서 주석 작성자는 가능한 한 많은 행동을 식별하기 위해 긴 로봇 비디오를 시청하고, 각 행동의 시작 및 종료 시간을 표시하고, 무제한 형태의 자연어를 사용하여 각 세그먼트를 설명해야 합니다.

가장 중요한 점은 이전 부트스트래핑 세트와 비교하여 훈련에 사용되는 모든 기술이 연구원이 미리 결정한 것이 아니라 데이터 자체에서 상향식으로 공개된다는 것입니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

연구원들은 의도적으로 학습 방법과 아키텍처를 최대한 단순화했습니다. 로봇 정책 네트워크는 보조 손실(보조 손실) 없이 5Hz 비디오 및 텍스트를 5Hz 로봇 동작으로 매핑하는 교차 주의 변환기입니다. . 손실) 표준 지도 학습 동작을 사용하여 대상을 복제합니다.

테스트하는 동안 새로운 자연어 명령은 최대 5Hz의 속도로 음성-텍스트를 통해 정책 네트워크로 전송될 수 있습니다.

오픈 소스 벤치마크

주석 과정에서 연구원들은 자연어 명령을 실행하는 로봇의 실제 440,000개 이상의 시연과 180,000개 이상의 시뮬레이션 시연뿐만 아니라 시연 중에 로봇이 취한 동작이 포함된 언어 표 데이터 세트를 수집했습니다. . 일련의 작업.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

이것은 또한 현재 최대 규모의 언어 조건 로봇 데모 데이터 세트로, 직접적으로 몇 배나 개선되었습니다.

Language-Table은 모델 선택에 사용하거나 다양한 방법으로 훈련된 로봇의 명령 실행 능력을 평가하는 데 사용할 수 있는 시뮬레이션 학습 벤치마크를 출시했습니다.

실시간 언어 행동 학습

실험에서 연구자들은 로봇이 실시간으로 입력된 자연어 명령을 따를 수 있을 때 로봇의 능력이 특히 강력해진다는 것을 발견했습니다.

프로젝트 웹사이트에서 연구원들은 사용자가 정밀한 조정 제어를 위해 오랜 시간이 필요한 목표를 해결하기 위해 자연어만을 사용하여 복잡한 장수평 시퀀스를 통해 로봇을 안내할 수 있음을 시연했습니다.

Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.

예를 들어, 테이블 위에 블록이 많으면 "녹색 눈으로 웃는 얼굴을 만들어라" 또는 "모두 수직선으로 놓아라" 등의 명령을 내릴 수 있습니다.

로봇은 개방형 어휘집 언어를 따르도록 훈련되었기 때문에 실험에서는 로봇이 "빨간 별을 오른쪽으로 부드럽게 이동하세요"와 같은 다양한 언어 교정에 반응하는 것을 확인했습니다.

마지막으로 연구원들은 로봇 데이터 수집을 더욱 효율적으로 만드는 등 실시간 언어의 장점을 조사했습니다. 인간 조작자는 동시에 음성 언어를 사용하여 로봇 4대를 제어할 수 있으며, 이를 통해 로봇 데이터 수집 규모를 잠재적으로 확장할 수 있습니다. , 각 로봇에 주석자를 장착할 필요가 없습니다.

결론

현재 프로젝트는 데스크톱의 고정된 개체 세트로 제한되어 있지만 대화형 언어에 대한 실험 결과는 대규모 모방 학습이 실제로 무료로 따라갈 수 있는 실시간 대화형 로봇을 생성할 수 있다는 예비 징후를 제공할 수 있습니다. -form 터미널 사용자 명령.

물리 로봇의 실시간 언어 제어 기술 발전을 촉진하기 위해 연구진은 언어 조건을 기반으로 한 실제 로봇 시연 데이터 세트 중 최대 규모인 Language-Table을 오픈소스로 공개했습니다. 관련 시뮬레이션 벤치마크로.

연구원들은 이 데이터 세트의 역할이 로봇 제어 분야에만 국한되지 않고 언어 및 동작 조건부 비디오 예측, 로봇 비디오 조건부 언어 모델링 또는 더 넓은 분야의 연구에도 사용될 수 있다고 믿습니다. 머신러닝 환경 다른 많은 흥미로운 활성 이슈가 새로운 출발점을 제공합니다.

위 내용은 Google 로봇은 최대 93.5%의 정확도로 대화형 언어를 구현하고 오픈 소스 데이터의 양은 10배 증가합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7692

자바 튜토리얼

1639

Cakephp 튜토리얼

1393

라라벨 튜토리얼

1287

PHP 튜토리얼

1229

Related knowledge

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

Bitget Trading Platform 공식 앱 다운로드 및 설치 주소 Feb 25, 2025 pm 02:42 PM

이 안내서는 Android 및 iOS 시스템에 적합한 공식 Bitget Exchange 앱에 대한 자세한 다운로드 및 설치 단계를 제공합니다. 이 안내서는 공식 웹 사이트, App Store 및 Google Play를 포함한 여러 권위있는 소스의 정보를 통합하고 다운로드 및 계정 관리 중 고려 사항을 강조합니다. 사용자는 App Store, 공식 웹 사이트 APK 다운로드 및 공식 웹 사이트 Jump, 완전한 등록, 신원 확인 및 보안 설정을 포함한 공식 채널에서 앱을 다운로드 할 수 있습니다. 또한 가이드는 자주 묻는 질문과 다음과 같은 고려 사항을 다룹니다.