Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문-일체 포함-php.cn

iVideoGPT는 세계 모델의 높은 상호작용에 대한 요구를 충족합니다.

생성 모델은 최근 몇 년 동안 상당한 발전을 이루었으며 그 중 비디오 세대가 새로운 개척자가 되고 있습니다. 이러한 생성적 비디오 모델의 중요한 적용은 예측 세계 모델을 구축하기 위해 다양한 인터넷 규모 데이터를 감독되지 않은 방식으로 학습하는 것입니다. 이러한 세계 모델은 세계가 어떻게 작동하는지에 대한 상식적인 지식을 축적하여 에이전트의 행동을 기반으로 잠재적인 미래 결과를 예측할 수 있을 것으로 예상됩니다.

이러한 월드 모델을 활용함으로써 강화 학습을 사용하는 에이전트는 월드 모델 내에서 상상하고 추론하고 계획할 수 있으므로, 적은 양의 실험으로 현실 세계에서 보다 안전하고 효과적으로 새로운 기술을 습득할 수 있습니다.

생성 모델과 월드 모델 간의 근본적인 연결에도 불구하고 비디오 생성을 위한 생성 모델 개발과 에이전트 학습을 위한 월드 모델 개발 사이에는 여전히 상당한 격차가 있습니다. 주요 과제 중 하나는 상호 작용성과 확장성 사이에서 최적의 균형을 달성하는 방법입니다.

모델 기반 강화 학습 분야에서 월드 모델은 주로 순환 네트워크 아키텍처를 사용합니다. 이 디자인은 각 단계의 작업을 기반으로 관찰 또는 잠재 상태를 전달할 수 있도록 하여 대화형 행동 학습을 촉진합니다. 그러나 이러한 모델은 대부분 게임이나 시뮬레이션 환경에 중점을 두고 있으며, 단순한 데이터를 가지고 있어 대규모의 복잡한 실제 데이터를 모델링하는 능력이 제한되어 있습니다.

반면, 인터넷 규모의 비디오 생성 모델은 텍스트 설명이나 향후 액션 시퀀스로 제어할 수 있는 사실적인 긴 비디오를 합성할 수 있습니다. 이러한 모델은 높은 수준의 장기 계획을 허용하지만 궤적 수준의 상호 작용은 에이전트에게 기본적인 기술로서 정확한 행동을 효과적으로 학습할 수 있는 충분한 세부성을 제공하지 않습니다.

Tsinghua University, Huawei Noah's Ark Laboratory 및 Tianjin University의 연구원들은 iVideoGPT(Interactive VideoGPT)를 제안했습니다. 이는 다중 모드 신호(시각적 관찰, 동작 및 보상)를 결합한 확장 가능한 자동 회귀 변환기 프레임워크입니다. 일련의 토큰을 통해 에이전트는 다음 토큰을 예측하여 상호 작용하고 경험할 수 있습니다.

iVideoGPT는 새로운 압축 토큰화 기술을 사용하여 고차원 시각적 관찰을 효과적으로 분리합니다. 확장 가능한 아키텍처를 활용하여 연구원들은 수백만 개의 인간 및 로봇 작동 궤적에 대해 iVideoGPT를 사전 훈련할 수 있었고 이를 통해 다양한 다운스트림 작업을 위한 대화형 세계 모델로 사용할 수 있는 다용도 기반을 구축했습니다. 이 연구는 대화형 보편적 세계 모델의 개발을 촉진합니다.

Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

논문 주소: https://arxiv.org/pdf/2405.15223
논문 제목: iVideoGPT: Interactive VideoGPTs are Scalable World Models

이 부분에서 연구팀은 매우 유연하고 시각적 관찰, 행동, 보상 및 기타 잠재적 입력을 포함한 다중 모드 정보를 통합할 수 있는 확장 가능한 세계 모델 아키텍처인 iVideoGPT를 소개합니다.

iVideoGPT의 핵심에는 비디오 프레임을 구분하기 위한 압축 토크나이저와 후속 토큰을 예측하기 위한 자동 회귀 변환기가 포함되어 있습니다. 다양한 비디오 데이터에 대한 사전 학습을 통해 모델은 광범위한 세계 지식을 습득한 다음 효율적으로 다운스트림 작업으로 전송할 수 있습니다.

Architecture

압축 토큰화. Transformer는 개별 토큰의 시퀀스를 처리하는 데 특히 효과적입니다. VQGAN은 원시 픽셀을 개별 토큰으로 변환하는 데 일반적으로 사용되는 시각적 토크나이저입니다. 연구원들은 비디오를 토큰화하기 위해 듀얼 인코더와 디코더 {(E_c, D_c), (E_p, D_p)}로 구성된 새로운 조건부 VQGAN을 사용할 것을 제안했습니다.

그림 3a에 표시된 것처럼 초기 컨텍스트 프레임 Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

에는 N 토큰을 통해 독립적으로 토큰화되고 재구성되는 풍부한 컨텍스트 정보가 포함되어 있습니다.

Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

반대로 컨텍스트 프레임과 미래 프레임 사이의 시간적 중복성으로 인해 움직이는 객체의 위치 및 포즈와 같은 필요한 변경 정보만 인코딩하면 됩니다. 위의 프로세스는 조건부 인코더와 디코더를 사용하여 달성됩니다.

Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

연구원들은 다중 규모 특징 맵 간의 교차 주의를 사용하여 조건부 메커니즘을 구현했습니다. 일반적으로 토크나이저는 다음 목표로 훈련됩니다.

Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

본 연구에서 제안된 토큰화는 주로 두 가지 이점이 있습니다.

첫째, 토큰화된 비디오의 시퀀스를 크게 줄입니다. 길이는 선형적으로 증가합니다.
둘째, 조건부 인코딩을 통해 후속 토큰을 예측하는 변환기는 컨텍스트의 시간적 일관성을 더 쉽게 유지하고 모델링에 필요한 동적 정보에 집중할 수 있습니다.

Transformer의 대화형 예측. 토큰화 후 비디오는 일련의 토큰으로 평면화됩니다.

Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

길이는

입니다. 특수 슬롯 토큰[S]은 프레임 경계를 묘사하고 작업과 같은 추가적인 저차원 양식의 융합을 촉진하기 위해 삽입됩니다. 그림 3b에 표시된 것처럼 GPT와 유사한 자동 회귀 변환기는 프레임별로 다음 토큰을 생성하여 대화형 비디오 예측에 사용됩니다. 이 작업에서 팀은 GPT-2의 모델 크기를 사용했지만 회전 위치 임베딩과 같은 LLM 아키텍처의 최근 혁신을 활용하기 위해 LLaMA 아키텍처를 조정했습니다.

사전 훈련

대형 언어 모델은 다음 단어 예측을 통해 자체 지도 방식으로 인터넷 텍스트에서 광범위한 지식을 얻을 수 있습니다. 마찬가지로, 세계 모델의 액션 없는 비디오 사전 훈련 패러다임은 비디오 예측을 사전 훈련 목표로 사용하여 LLM이 부족한 물리적 세계 지식에 대한 인터넷 규모 감독을 제공합니다.

연구원들은 후속 비디오 토큰을 예측하기 위해 교차 엔트로피 손실을 적용하여 이 일반 목표에 대해 iVideoGPT를 사전 훈련했습니다.

Tsinghua University, Huawei 등은 iVideoGPT를 제안했습니다: 대화형 세계 모델 전문

사전 훈련 데이터. 인터넷에는 수많은 비디오가 있지만 계산상의 한계로 인해 연구원들은 로봇 조작 분야를 위해 특별히 iVideoGPT를 사전 훈련했습니다. 그들은 Open X-Embodiment(OXE) 데이터 세트와 Something-Something v2(SSv2) 데이터 세트의 35개 데이터 세트를 혼합하여 활용하여 총 150만 개의 궤적을 만들었습니다.

미세 조정

행동 조건 및 보상 예측. 팀의 아키텍처는 그림 3b와 같이 대화형 세계 모델을 학습하기 위해 추가 양식을 유연하게 통합하도록 설계되었습니다. 작업은 선형 투영을 통해 통합되고 슬롯 토큰 임베딩에 추가됩니다. 보상 예측을 위해 별도의 보상 예측기를 학습하는 대신 각 관찰의 마지막 토큰의 숨겨진 상태에 선형 헤드를 추가했습니다.

이 다중 작업 학습 방법은 작업 관련 정보에 대한 모델의 주의력을 향상시켜 제어 작업의 예측 정확도를 향상시킬 수 있습니다. 방정식 (3)의 교차 엔트로피 손실 외에도 보상 예측을 위해 평균 제곱 오류 손실도 사용했습니다.

토크나이저 적응. 연구팀은 다운스트림 작업에 적응하기 위해 토크나이저를 포함한 전체 모델을 업데이트하기로 결정했으며 이 전략이 매개변수 효율적인 미세 조정 방법보다 더 효과적이라는 것을 확인했습니다.

도메인별 데이터에 VQGAN 토크나이저를 사용하는 방법을 탐구하는 문헌은 거의 없습니다. 이 작업에서는 토큰화가 상황적 조건에서 동적 정보를 분리하기 때문에 이 모델이 다양한 유형의 로봇과 같은 다운스트림 작업에서 보이지 않는 개체를 만날 수 있지만 변환기는 다양한 시나리오에서 기본 물리학 지식(예: 움직임 및 상호 작용)을 학습한다고 가정합니다. - 공유됩니다.

이 가설은 iVideoGPT를 혼합된 사전 훈련 데이터에서 보이지 않는 BAIR 데이터 세트로 마이그레이션한 실험에 의해 뒷받침됩니다. 여기서 사전 훈련된 변환기는 보이지 않는 경우에만 제로샷 일반화를 사용하여 자연스러운 동작을 예측할 수 있습니다. 지금까지 본 로봇 그리퍼의 토크나이저(그림 7 참조) 이 기능은 GPT와 같은 변환기를 큰 크기로 확장하여 변환기를 그대로 유지하면서 도메인 전체에 걸쳐 경량 정렬을 가능하게 하는 데 특히 중요합니다.

Experiments

표 1에서 볼 수 있듯이 iVideoGPT는 아키텍처에서 상호 작용성과 확장성을 달성하면서 SOTA 방식에 비해 경쟁력 있는 성능을 보여줍니다. 예비 실험은 64×64의 저해상도에서 진행되었지만 iVideoGPT는 RoboNet의 256×256까지 쉽게 확장될 수 있습니다.

정성적 결과는 그림 9를 참조하세요.

그림 4는 기본 모델과 비교한 iVideoGPT의 성공률을 보여줍니다. iVideoGPT는 RoboDesk 작업 모두에서 모든 기준을 크게 능가하며 가장 강력한 모델인 SVG'에 필적하는 평균 성능을 달성합니다.

그림 6은 모델 기반 알고리즘이 모델 없는 알고리즘보다 샘플 효율성을 향상시킬 뿐만 아니라 DreamerV3의 성능에 도달하거나 능가한다는 것을 보여줍니다.

다음 연구에서는 보이지 않는 BAIR 데이터세트에서 사전 훈련된 대규모 iVideoGPT의 제로샷 비디오 예측 능력을 분석합니다. 흥미롭게도, 그림 7의 두 번째 행에서 iVideoGPT가 사전 훈련 데이터 세트와는 다르지만 미세 조정 없이 로봇 그리퍼의 자연스러운 움직임을 예측한다는 것을 알 수 있습니다. 이는 사전 훈련 데이터의 다양성이 부족하여 모델이 완전히 보이지 않는 로봇에 대한 제로 샷 일반화를 제한했지만 장면 컨텍스트를 모션 역학과 효과적으로 분리한다는 것을 보여줍니다. 반면, 미세 조정되지 않은 Transformer는 적응된 토크나이저를 사용하여 사전 훈련된 지식을 성공적으로 전달하고 세 번째 행의 새로운 로봇의 동작을 예측하여 완전히 미세 조정된 네 번째 행의 Transformer와 유사한 인식을 제공합니다. 품질 및 정량적 결과는 그림 8a에 나와 있습니다.