목차
로봇공학 및 비전 언어 분야를 포괄하는 "일반" 모델
평가 결과" >평가 결과
기술 주변기기 일체 포함 구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

May 09, 2023 pm 08:28 PM
Google 모델

대형 언어 모델의 급속한 '돌연변이'로 인해 인류 사회의 방향은 점점 공상과학화되었습니다. 이 기술 트리를 조명한 후, '터미네이터'의 현실이 우리에게 점점 더 가까워지는 것 같습니다.

며칠 전 Microsoft는 ChatGPT를 사용하여 로봇과 드론을 제어할 수 있는 실험적 프레임워크를 발표했습니다.

물론 Google도 그리 뒤처지지 않았습니다. 월요일에 Google과 베를린 기술 대학 팀이 역사상 가장 큰 시각적 언어 모델인 PaLM-E를 출시했습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

논문 주소: https://arxiv.org/abs/2303.03378

PaLM-E는 다중 모드 VLM(embodied Visual Language Model)으로 이미지를 이해할 수 있을 뿐만 아니라 이미지도 이해할 수 없습니다. 또한 언어를 이해하고 생성할 수 있으며, 두 언어를 결합하여 복잡한 로봇 명령을 처리할 수도 있습니다.

PaLM-540B 언어 모델과 ViT-22B 시각적 Transformer 모델을 결합하면 PaLM-E의 최종 매개변수 수가 5,620억 개에 달합니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

로봇공학 및 비전 언어 분야를 포괄하는 "일반" 모델

Pathways Language Model with Embodied의 전체 이름인 PaLM-E는 구체화된 시각적 언어 모델입니다.

그 힘은 시각적 데이터를 사용하여 언어 처리 능력을 향상시키는 능력에 있습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

가장 큰 시각적 언어 모델을 학습시키고 이를 로봇과 결합하면 어떻게 될까요? 그 결과 PaLM-E는 로봇 공학, 비전 및 언어 전반에 걸쳐 5620억 개의 매개변수를 가진 보편적이고 구현된 시각적 언어 일반 전문가입니다.

논문에 따르면 PaLM-E는 디코더 전용 LLM입니다. 또는 프롬프트를 사용하면 자동 회귀 방식으로 텍스트 완성이 생성될 수 있습니다.

훈련 데이터는 시각적, 연속적 상태 추정 및 텍스트 입력 인코딩을 포함하는 다중 모드 문장입니다.

단일 이미지 프롬프트로 훈련한 후 PaLM-E는 로봇이 다양하고 복잡한 작업을 완료하도록 안내할 수 있을 뿐만 아니라 이미지를 설명하는 언어도 생성할 수 있습니다.

PaLM-E는 전례 없는 유연성과 적응성을 보여주며 특히 인간-컴퓨터 상호 작용 분야에서 큰 도약을 나타낸다고 할 수 있습니다.

더 중요한 것은 연구원들이 여러 로봇과 일반 시각적 언어의 다양한 혼합 작업 조합에 대한 교육을 통해 시각적 언어에서 로봇이 작업을 계획하고 데이터를 효과적으로 사용할 수 있도록 구현된 의사 결정으로 전환하는 여러 방법을 가져올 수 있음을 입증했습니다. .

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

PaLM-E의 특히 뛰어난 점은 강력한 포지티브 마이그레이션 능력을 가지고 있다는 것입니다.

인터넷 규모의 일반 시각-언어 작업을 포함한 다양한 영역에서 훈련된 PaLM-E는 단일 작업을 수행하는 로봇 모델에 비해 크게 향상된 성능을 달성합니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

그리고 연구원들은 모델 규모에서 상당한 이점을 발견했습니다.

언어 모델이 클수록 시각적 언어 및 로봇 작업 훈련 중에 언어 능력이 더 강력하게 유지됩니다.

모델 규모의 관점에서 보면 5,620억 개의 매개변수를 갖춘 PaLM-E는 거의 모든 언어 기능을 유지합니다.

단일 이미지에 대해서만 교육을 받았지만 PaLM-E는 다중 모드 사고 연쇄 추론 및 다중 이미지 추론과 같은 작업에서 뛰어난 능력을 보여줍니다.

PaLM-E는 OK-VQA 벤치마크에서 새로운 SOTA를 달성했습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

평가 결과

테스트에서 연구원들은 PaLM-E를 사용하여 서로 다른 두 개체에 대한 계획 및 장기 작업을 수행하는 방법을 보여주었습니다.

이 모든 결과는 동일한 데이터에 대해 훈련된 동일한 모델을 사용하여 얻은 것입니다.

과거에는 로봇이 장기간 작업을 완료하려면 일반적으로 인간의 도움이 필요했습니다. 하지만 이제 PaLM-E는 독립적인 학습을 통해 이를 수행할 수 있습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

예를 들어 "서랍에서 감자칩을 꺼내세요"와 같은 지시에는 여러 계획 단계와 로봇 카메라의 시각적 피드백이 포함됩니다.

엔드투엔드(end-to-end) 학습을 거친 PaLM-E는 픽셀에서 직접 로봇을 계획할 수 있습니다. 모델이 제어 루프에 통합되어 있기 때문에 로봇은 감자칩을 집어들 때 방해가 되는 것에 대해 견고합니다.

인간: 칩 좀 가져와주세요.

로봇: 1. 서랍으로 이동합니다. 2. 상단 서랍을 엽니다. 3. 상단 서랍에서 녹색 감자칩을 집습니다. 4. 카운터에 놓습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

마찬가지로 로봇에게 사과를 달라고 하면 그림을 준 후 로봇은 다음과 같이 작업을 수행합니다. -

인간:사과를 줘.

로봇: 1. 사과를 향해 걸어갑니다. 2. 사과를 집습니다. 3. 교환원에게 가져갑니다. 4. 사과를 내려 놓습니다. 5. 끝났습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

PaLM-E를 사용하면 로봇은 장거리 작업을 수행하는 것 외에도 빌딩 블록 배열과 같은 계획 작업을 수행할 수 있습니다.

연구원들은 시각적 및 언어적 입력을 기반으로 하고 장기적인 시각적 피드백을 결합하여 다단계 계획을 성공적으로 수행했으며, 이를 통해 모델은 "블록을 색상별로 다양한 카테고리로 분류"하는 장기 작업을 성공적으로 계획할 수 있었습니다. . 모서리".

아래와 같이 배열과 조합 면에서는 로봇이 만능형으로 변신하여 색별로 블록을 분류해 줍니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

모델을 일반화하면 PaLM-E가 제어하는 ​​로봇은 빨간색 빌딩 블록을 커피 컵 옆으로 이동할 수 있습니다.

데이터세트에는 커피 컵이 포함된 데모가 3개만 포함되어 있지만 그 중 빨간색 빌딩 블록이 포함되어 있지 않다는 점을 언급할 가치가 있습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

마찬가지로 모델은 이전에 거북이를 본 적이 없지만 여전히 녹색 블록을 거북이에게 부드럽게 밀어 넣을 수 있습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

PaLM - E는 이미지를 통해 농담을 할 수 있으며 지각, 비전 기반 대화, 계획 등의 능력을 보여줍니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

PaLM-E는 그림 1(왼쪽)이 그림 2(오른쪽)에 있는 것처럼 여러 그림 간의 관계도 이해할 수 있습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

또한 PaLM-E는 손으로 쓴 숫자가 있는 이미지에 대해 수학 연산을 수행할 수도 있습니다.

예를 들어 아래 손으로 쓴 레스토랑 메뉴 사진의 경우 피자 2판의 가격은 PaLM-E에서 직접 계산할 수 있습니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

일반 QA, 주석 및 기타 작업도 가능합니다.

구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.

마지막으로, 연구 결과는 언어 모델을 동결하는 것이 언어 기능을 완전히 유지하는 보편적 구현 다중 모드 모델을 향한 실행 가능한 경로임을 보여줍니다.

그러나 동시에 연구원들은 모델 고정을 해제하는 대체 경로도 발견했습니다. 즉, 언어 모델의 크기를 늘리면 치명적인 망각을 크게 줄일 수 있다는 것입니다.

위 내용은 구글은 5620억 개의 매개변수를 갖고 터미네이터에서 가장 강력한 두뇌로 알려져 있으며 이미지를 통해 로봇과 상호작용할 수 있는 역사상 최대 규모의 범용 모델인 PaLM-E를 출시했다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek에 의견을 말하는 방법 DeepSeek에 의견을 말하는 방법 Feb 19, 2025 pm 05:42 PM

DeepSeek은 강력한 정보 검색 도구입니다.이 장점은 정보가 느리고 결과 프레젠테이션 방법이 간단하며 데이터베이스 적용 범위는 제한되어 있다는 것입니다 .

DeepSeek을 검색하는 방법 DeepSeek을 검색하는 방법 Feb 19, 2025 pm 05:39 PM

DeepSeek은 특정 데이터베이스 나 시스템에서만 더 빠르고 정확한 독점 검색 엔진입니다. 이를 사용할 때 사용자는 문서를 읽고, 다양한 검색 전략을 시도하고, 사용자 경험에 대한 도움을 요청하고 사용자 경험에 대한 피드백을 최대한 활용하는 것이 좋습니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Feb 21, 2025 pm 10:57 PM

Bybit Exchange 링크를 직접 다운로드하고 설치할 수없는 이유는 무엇입니까? Bybit은 사용자에게 거래 서비스를 제공하는 암호 화폐 거래소입니다. Exchange의 모바일 앱은 다음과 같은 이유로 AppStore 또는 GooglePlay를 통해 직접 다운로드 할 수 없습니다. 1. App Store Policy는 Apple과 Google이 App Store에서 허용되는 응용 프로그램 유형에 대한 엄격한 요구 사항을 갖지 않도록 제한합니다. Cryptocurrency Exchange 응용 프로그램은 금융 서비스가 포함되며 특정 규정 및 보안 표준이 필요하기 때문에 이러한 요구 사항을 충족하지 않습니다. 2. 법률 및 규정 준수 준수 많은 국가에서 암호 화폐 거래와 관련된 활동이 규제되거나 제한됩니다. 이러한 규정을 준수하기 위해 BYBIT 응용 프로그램은 공식 웹 사이트 또는 기타 공인 채널을 통해서만 사용할 수 있습니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Binance Binance 공식 웹 사이트 최신 버전 로그인 포털 Feb 21, 2025 pm 05:42 PM

Binance 웹 사이트 로그인 포털의 최신 버전에 액세스하려면 다음을 수행하십시오. 공식 웹 사이트로 이동하여 오른쪽 상단의 "로그인"버튼을 클릭하십시오. 기존 로그인 방법을 선택하십시오. 새 사용자 인 경우 "등록하십시오. 등록 된 휴대폰 번호 또는 이메일 및 비밀번호를 입력하고 완전한 인증 (예 : 모바일 확인 코드 또는 Google 인증 자). 성공적인 확인 후 Binance 공식 웹 사이트 로그인 포털의 최신 버전에 액세스 할 수 있습니다.

2025 년 Bitget의 최신 다운로드 주소 : 공식 앱을 얻는 단계 2025 년 Bitget의 최신 다운로드 주소 : 공식 앱을 얻는 단계 Feb 25, 2025 pm 02:54 PM

이 안내서는 Android 및 iOS 시스템에 적합한 공식 Bitget Exchange 앱에 대한 자세한 다운로드 및 설치 단계를 제공합니다. 이 안내서는 공식 웹 사이트, App Store 및 Google Play를 포함한 여러 권위있는 소스의 정보를 통합하고 다운로드 및 계정 관리 중 고려 사항을 강조합니다. 사용자는 App Store, 공식 웹 사이트 APK 다운로드 및 공식 웹 사이트 Jump, 완전한 등록, 신원 확인 및 보안 설정을 포함한 공식 채널에서 앱을 다운로드 할 수 있습니다. 또한 가이드는 자주 묻는 질문과 다음과 같은 고려 사항을 다룹니다.

See all articles