방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 06, 2024 am 12:18 AM

Google 산업 세계 모델 Genie

한 번의 클릭으로 플레이 가능한 게임 세계를 생성하세요.

출시된 지 2주밖에 안 됐는데, Google의 세계 모델도 여기에 있고 그 기능은 더욱 강력해 보입니다. 그것이 생성하는 가상 세계는 "자율적이고 제어 가능"합니다. 지금 Google은 생성적 AI의 새로운 패러다임인 생성적 대화형 환경(Genie)을 정의했습니다. Genie는 단일 이미지 프롬프트에서 재생 가능한 대화형 환경을 생성할 수 있는 110억 개의 매개변수 기반 세계 모델입니다.

한 번도 본 적이 없는 이미지로 메시지를 표시한 다음 상상 속의 가상 세계와 상호 작용할 수 있습니다.

합성 이미지, 사진, 심지어 손으로 그린 스케치까지 Genie는 그것들로부터 무한한 플레이 가능한 세계를 생성할 수 있습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

Genie는 각 프레임 쌍 사이의 잠재적인 동작을 추론하는 잠재 동작 모델, 원시 비디오 프레임을 개별 토큰으로 변환하는 비디오 토크나이저, 주어진 비디오의 다음 프레임을 예측하는 동적 모델의 세 부분으로 구성됩니다. 잠재적인 행동과 과거 프레임 토큰.

이 기술이 공개된 것을 보고 많은 사람들은 '구글이 다시 AI 기술을 선도하게 될 것이다'라고 말했습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

Google은 또한 Genie가 학습한 잠재적 행동을 인간이 설계한 실제 환경으로 전송할 수 있다고 제안합니다. 이 가설을 바탕으로 Google은 로봇 공학 분야의 잠재적인 세계 모델 응용 프로그램에 대한 개념 증명으로 로봇 비디오에서 Genie 모델을 교육했습니다.

게임, 디자인, XR, 로봇 산업의 파괴...

4차원에서 Genie의 혁명적 의미를 이해할 수 있습니다.

먼저 Genie는 액션 태그 없이 컨트롤을 배울 수 있습니다.

구체적으로 Genie는 액션 라벨 데이터 없이 수많은 공개 인터넷 비디오 데이터 세트로 훈련되었습니다.

인터넷 동영상에는 어떤 동작이 수행되고 이미지의 어느 부분을 제어해야 하는지에 대한 라벨이 없는 경우가 많기 때문에 어려웠을 것입니다. 그러나 Genie는 구체적으로 인터넷 동영상을 통해 세밀한 제어를 학습할 수 있습니다.

Genie의 경우 관찰의 어떤 부분이 일반적으로 제어 가능한지 이해할 뿐만 아니라 생성된 환경에서 일관되는 다양한 잠재적인 동작을 추론합니다. 동일한 기본 작업이 어떻게 다른 프롬프트 이미지에서 유사한 동작을 생성할 수 있는지 확인하세요.

둘째, 지니는 차세대 '크리에이터'를 양성할 수 있습니다.

단 하나의 이미지로 완전히 새로운 인터랙티브 환경을 만들면 가상 세계를 생성하고 진입하는 다양하고 새로운 방법의 문이 열립니다. 예를 들어, 최첨단 텍스트 생성 이미지 모델을 사용하여 시작 프레임을 생성한 다음 Genie와 협력하여 동적 대화형 환경을 생성할 수 있습니다.

다음 애니메이션에서 Google은 Imagen2를 사용하여 이미지를 생성한 다음 Genie를 사용하여 이를 현실로 만들었습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

Genie는 그 이상을 수행할 수 있으며 다음과 같은 인간 디자인 관련 창의적 분야에도 적용될 수 있습니다. 스케치.

또는 실제 이미지에 적용:

다시 한번 Google은 Genie가 범용 지능을 실현하는 초석이라고 믿습니다. 이전 연구에 따르면 게임 환경은 AI 에이전트 개발을 위한 효과적인 테스트베드가 될 수 있지만 사용 가능한 게임 수에 따라 제한되는 경우가 많습니다.

이제 Genie를 사용하면 미래의 AI 에이전트를 새로 생성된 세계의 끝없는 커리큘럼에서 훈련할 수 있습니다. Google은 Genie가 학습한 잠재적인 행동이 인간이 설계한 실제 환경으로 전송될 수 있다는 개념 증명을 제시했습니다.

마지막으로 Google은 Genie가 별도의 도메인 지식 없이도 여러 도메인에 적용할 수 있는 일반적인 방법이라고 밝혔습니다.

사용된 데이터는 2D 플랫폼 게임 플레이 및 로봇 동영상이지만 이 방법은 일반적이고 모든 유형의 도메인에 적용 가능하며 더 큰 인터넷 데이터 세트로 확장될 수 있습니다.

Google은 RT1의 모션 없는 동영상에 대해 더 작은 25억 모델을 교육했습니다. 플랫폼 게임의 경우와 마찬가지로 기본 동작 순서가 동일한 궤적은 유사한 동작을 보이는 경우가 많습니다.

이는 Genie가 일관된 행동 공간을 학습할 수 있다는 것을 보여주며, 이는 일반화된 구체화된 지능을 생성하기 위해 로봇을 훈련시키는 데 적합할 수 있습니다.

기술 공개: "Genie: Generative Interactive Environments" 논문이 발표되었습니다

Google DeepMind가 Genie 논문을 발표했습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

논문 주소: https://arxiv.org/pdf/2402.15391.pdf
프로젝트 홈페이지: https://sites.google.com/view/genie-2024/home?pli= 1

이 논문의 공동 저자는 중국 학자 Yuge (Jimmy) Shi를 포함해 6명 정도입니다. 그녀는 현재 Google DeepMind의 연구원으로 재직하고 있으며 2023년에 옥스퍼드 대학교에서 머신러닝 박사 학위를 받았습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

방법 소개

Genie 아키텍처의 여러 구성 요소는 ViT(Vision Transformer)를 기반으로 구축되었습니다. 비디오 분야에 문제를 일으키는 Transformer의 보조 메모리 비용으로 인해 비디오에는 최대 ?(10^4)개의 토큰이 포함될 수 있다는 점은 주목할 가치가 있습니다. 따라서 Google은 모델 용량과 계산 제약 조건의 균형을 맞추기 위해 모든 모델 구성 요소에서 메모리 효율적인 ST 변환기 아키텍처(그림 4 참조)를 사용합니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

Genie에는 세 가지 주요 구성 요소가 포함되어 있습니다(아래 그림 참조).

1) 각 프레임 쌍 사이의 잠재적인 동작을 추론하는 데 사용되는 LAM(잠재 동작 모델)

2) 비디오 토크나이저(토크나이저) ), 원본 비디오 프레임을 개별 토큰으로 변환하는 데 사용됩니까?;

3) 잠재적인 동작과 과거 프레임의 토큰이 제공된 동적 모델은 비디오의 다음 프레임을 예측하는 데 사용됩니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

구체적으로:

잠재 동작 모델: 제어 가능한 비디오 생성을 달성하기 위해 Google은 이전 프레임에서 수행된 동작을 향후 프레임 예측의 조건으로 사용합니다. 그러나 이러한 작업 레이블은 인터넷의 비디오에서 거의 사용할 수 없으며 작업 주석을 얻는 데 드는 비용이 높을 수 있습니다. 대신 Google은 완전히 감독되지 않는 방식으로 잠재적인 작업을 학습합니다(그림 5 참조).

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

비디오 토크나이저: 이전 연구를 기반으로 Google은 차원을 줄이고 더 높은 품질의 비디오 생성을 달성하기 위해 비디오를 개별 토큰으로 압축합니다(그림 6 참조). 구현을 위해 Google은 비디오의 ? 프레임 방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다. 을 입력으로 사용하고 각 프레임에 대해 이산 표현을 생성하는 VQ-VAE를 사용합니다. 여기서 ?는 이산 잠재 공간 크기입니다. 토크나이저는 표준 VQ-VQAE를 사용하여 전체 비디오 시퀀스에 대해 교육됩니다. 방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

동적 모델: 디코더 전용 MaskGIT 변환기입니다(그림 7).

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

Genie의 추론 과정은 다음과 같습니다

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

실험 결과

확장 결과

Google에서는 모델의 확장 동작을 연구하기 위해 매개변수 크기가 2.7부터인 모델을 대상으로 실험을 수행했습니다. B ~ 41M 모델 크기와 배치 크기의 영향을 살펴보기 위해 실험 결과가 아래 그림 9에 나와 있습니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

모델 크기가 증가함에 따라 최종 훈련 손실이 감소하는 것을 관찰할 수 있습니다. 이는 Genie 접근 방식이 확장의 이점을 누리고 있다는 강력한 증거입니다. 동시에 배치 크기를 늘리면 모델 성능도 향상됩니다.

정성적 결과

Google은 Platformers 데이터세트로 훈련된 Genie 11B 매개변수 모델과 Robotics 데이터세트로 훈련된 더 작은 모델에 대한 정성적 실험 결과를 제시합니다. 결과는 Genie 모델이 다양한 도메인에 걸쳐 제어 가능한 고품질 비디오를 생성할 수 있음을 보여줍니다. 특히 Google은 플랫폼 교육 모델을 정성적으로 평가하기 위해 OOD(배포 외) 이미지 프롬프트만 사용하여 Genie 접근 방식의 견고성과 대규모 데이터 교육의 가치를 보여줍니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

에이전트 교육. 아마도 언젠가는 Genie를 다중 작업 에이전트 교육을 위한 기본 세계 모델로 사용할 수 있을 것입니다. 그림 14에서 저자는 시작 프레임이 주어지면 새로운 RL 환경에서 다양한 궤적을 생성하는 데 모델이 이미 사용될 수 있음을 보여줍니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

저자는 절차적으로 생성된 2D 플랫폼 게임 환경인 CoinRun에서 평가를 수행하고 전문가 작업에 대한 액세스를 상한으로 하는 Oracle BC(Behavioral Clone) 모델과 비교합니다.

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

절제 연구. 선택 잠재 행동 모델을 설계할 때 저자는 사용할 입력 유형을 신중하게 고려했습니다. 최종 선택은 원시 이미지(픽셀)를 사용하는 것이었지만 저자는 Genie를 디자인할 때 토큰화된 이미지를 사용하는 대안(그림 5에서 x를 z로 대체)과 비교하여 이 선택을 평가했습니다. 이 대안을 "토큰 입력" 모델이라고 합니다(표 2 참조).

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

토크나이저 아키텍처 제거. 저자는 1)(공간 전용) ViT, 2)(공간 및 시간) ST-ViViT, 3)(공간 및 시간) CViViT를 포함한 세 가지 토크나이저 선택의 성능을 비교했습니다(표 3).

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

위 내용은 방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1655

Cakephp 튜토리얼

1413

라라벨 튜토리얼

1306

PHP 튜토리얼

1252

C# 튜토리얼

1226

Related knowledge

참깨 오픈 도어 교환 웹 페이지 로그인 최신 버전 GATEIO 공식 웹 사이트 입구 Mar 04, 2025 pm 11:48 PM

로그인 단계 및 암호 복구 프로세스를 포함하여 참깨 오픈 exchange 웹 버전의 로그인 작업에 대한 자세한 소개는 로그인 실패, 페이지를 열 수 없으며 플랫폼에 부드럽게 로그인 할 수없는 일반적인 문제에 대한 솔루션을 제공합니다.

참깨 오픈 도어 교환 웹 페이지 등록 링크 게이트 트레이딩 앱 등록 웹 사이트 최신 Feb 28, 2025 am 11:06 AM

이 기사에서는 GATE.IO (GATE.IO) 웹 버전의 등록 프로세스와 GATE 트레이딩 앱의 등록 프로세스를 소개합니다. 웹 등록 또는 앱 등록이든, 공식 웹 사이트 또는 App Store를 방문하여 Genuine 앱을 다운로드 한 다음 사용자 이름, 암호, 이메일, 휴대 전화 번호 및 기타 정보, 완전한 이메일 또는 휴대 전화 확인을 작성해야합니다.

Crypto Digital Asset Trading App (2025 Global Ranking)에 권장되는 상위 10 개 Mar 18, 2025 pm 12:15 PM

이 기사에서는 Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, Bydfi 및 Xbit DencentRalized Exchanges를 포함하여주의를 기울여야 할 상위 10 개의 Cryptocurrency 거래 플랫폼을 권장합니다. 이 플랫폼은 거래 통화 수량, 거래 유형, 보안, 규정 준수 및 특수 기능 측면에서 고유 한 이점이 있습니다. 예를 들어 Binance는 전 세계 최대의 거래량과 풍부한 기능으로 유명합니다. 적절한 플랫폼을 선택하려면 자체 거래 경험, 위험 허용 범위 및 투자 선호도를 기반으로 포괄적 인 고려 사항이 필요합니다. 이 기사가 자신에게 가장 적합한 것을 찾는 데 도움이되기를 바랍니다.

참깨 오픈 도어 트레이딩 플랫폼 다운로드 모바일 버전 게이트 오리오 트레이딩 플랫폼 다운로드 주소 Feb 28, 2025 am 10:51 AM

앱을 다운로드하고 계정의 안전을 보장하기 위해 공식 채널을 선택하는 것이 중요합니다.

OUYI OKEX 계정을 등록, 사용 및 취소하는 방법에 대한 자습서 Mar 31, 2025 pm 04:21 PM

이 기사는 Ouyi Okex 계정의 등록, 사용 및 취소 절차를 자세히 소개합니다. 등록하려면 앱을 다운로드하고 휴대폰 번호 또는 이메일 주소를 입력하여 등록하고 실제 인증을 완료해야합니다. 사용법은 로그인, 재충전 및 인출, 거래 및 보안 설정과 같은 운영 단계를 다룹니다. 계정을 취소하려면 OUYI OKEX 고객 서비스에 문의하고 필요한 정보를 제공하고 처리를 기다린 후 마지막으로 계정 취소 확인을 얻어야합니다. 이 기사를 통해 사용자는 Ouyi Okex 계정의 전체 수명주기 관리를 쉽게 마스터하고 디지털 자산 거래를 안전하고 편리하게 수행 할 수 있습니다.

Bitget 공식 웹 사이트에서 최신 앱을 등록하고 다운로드하는 방법 Mar 05, 2025 am 07:54 AM

이 안내서는 Android 및 iOS 시스템에 적합한 공식 Bitget Exchange 앱에 대한 자세한 다운로드 및 설치 단계를 제공합니다. 이 안내서는 공식 웹 사이트, App Store 및 Google Play를 포함한 여러 권위있는 소스의 정보를 통합하고 다운로드 및 계정 관리 중 고려 사항을 강조합니다. 사용자는 App Store, 공식 웹 사이트 APK 다운로드 및 공식 웹 사이트 Jump, 완전한 등록, 신원 확인 및 보안 설정을 포함한 공식 채널에서 앱을 다운로드 할 수 있습니다. 또한 가이드는 자주 묻는 질문과 다음과 같은 고려 사항을 다룹니다.

Bittensor가 AI 트랙에서 'Bitcoin'이라고 말하는 이유는 무엇입니까? Mar 04, 2025 pm 04:06 PM

원본 : Bittensor = Aibitcoin : S4mmyeth, 분산 AI 연구 원본 번역 :이 기사에서는 Bittensor, 분산 된 AI 플랫폼에 대해 논의하고, 중앙 집중식 AI 회사의 독점을 홍보하고 개방형 및 사형에 Ecosystem을 홍보하기를 희망합니다. Bittensor는 다양한 AI 솔루션의 출현을 허용하는 서브넷 모델을 채택하고 TAO 토큰을 통해 혁신을 고무시킵니다. AI 시장은 성숙하지만 Bittensor는 경쟁 위험에 직면하며 다른 오픈 소스의 적용을받을 수 있습니다.

Binance 등록 방법에 대한 자세한 자습서 (2025 초보자 가이드) Mar 18, 2025 pm 01:57 PM

이 기사는 Binance 등록 및 보안 설정에 대한 완전한 가이드를 제공하며, 사전 등록 준비 (장비, 이메일, 휴대폰 번호 및 ID 문서 준비 포함)를 포함하고 공식 웹 사이트 및 앱에 두 가지 등록 방법과 다양한 Identity Verification (KYC) 프로세스를 소개합니다. 또한이 기사는 펀드 비밀번호 설정, 2 요인 검증 (Google Authenticator 및 SMS Verification을 포함한 2FA) 및 피싱 코드를 설정하여 사용자가 Cryptocurrency Transactions를 안전하고 편리하게 등록하고 사용하는 등의 주요 보안 단계에 중점을 둡니다. 거래하기 전에 관련 법률 및 규정 및 시장 위험을 이해하고주의해서 투자하십시오.

See all articles

방금 Google은 대화형 가상 세계를 생성할 수 있는 기본 세계 모델인 11B 매개변수를 출시했습니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제