미디어가 소라를 과대평가하면서 OpenAI의 입문 자료에서는 소라를 '월드 시뮬레이터'라고 부르는데, 월드 모델이라는 용어가 다시 등장했지만, 월드 모델을 소개하는 기사는 거의 없습니다.
여기서 월드 모델이 무엇인지 검토하고 소라가 월드 시뮬레이터인지 논의합니다.
AI 분야에서 세계/세계, 환경/환경이라는 단어를 언급할 때는 일반적으로 에이전트/에이전트와 구별하기 위해 사용합니다.
에이전트에 대해 가장 많이 연구되는 분야는 강화학습과 로봇공학입니다.
그러면 세계 모델과 세계 모델링이 로봇 공학 분야의 논문에 가장 먼저, 가장 자주 등장한다는 것을 알 수 있습니다.
오늘날 가장 큰 영향을 미치는 단어 세계 모델은 Jurgen이 2018년 arxiv에 게시한 "world models"이라는 제목의 기사일 것입니다. 해당 기사는 결국 NeurIPS'18에 게재되었습니다.
이 논문은 세계 모델이 무엇인지 정의하지 않지만, 1971년 문헌을 인용하여 인지 과학에서 인간 두뇌의 정신 모델에 비유합니다.
정신 모델은 주변 세계에 대한 인간 두뇌의 거울 이미지입니다.
위키피디아에 소개된 정신 모델은 인지, 추론, 의사 결정 과정에 참여할 수 있음을 분명히 지적합니다. 그리고 정신 모델의 경우 주로 정신 표현과 정신 시뮬레이션이라는 두 부분으로 구성됩니다.
인지, 추론 및 의사 결정에 중요한 역할을 한다고 가정된 외부 현실의 내부 표현입니다. 이 용어는 1943년 Kenneth Craik이 만들어낸 용어로, 마음이 현실의 "소규모 모델"을 구성한다고 제안했습니다. 이벤트를 예측하는 데 사용됩니다.
이 시점에서는 여전히 약간 혼란스럽습니다. 하지만 논문의 구조 다이어그램은 세계 모델이 무엇인지 명확하게 설명합니다.
그림에서 수직 V->z는 VAE에 의해 구현된 관측값의 저차원 표현입니다. 수평 M->h->M->h는 다음과 같습니다. RNN으로 구현된 시퀀스의 예측된 다음 순간을 표현하면 두 부분이 합쳐져 World Model이 됩니다.
즉, World 모델은 주로 상태 표현과 전환 모델을 포함하며, 이는 정신적 표현과 정신적 시뮬레이션에도 해당됩니다.
위 사진을 보시면 서열 예측은 모두 세계 모델이 아닌가 하는 생각이 드실 겁니다.
사실 강화학습에 익숙한 학생들은 이 그림의 구조가 잘못된(불완전) 것을 한 눈에 알 수 있는데, 실제 구조는 아래 그림과 같습니다. RNN의 입력은 z 뿐만 아니라 또한 액션도 일반적인 시퀀스 예측이 아닙니다(액션을 추가하면 큰 차이가 발생합니까? 예, 액션을 추가하면 데이터 배포가 자유롭게 변경될 수 있으므로 큰 문제가 발생합니다).
Jurgen의 논문은 강화 학습 분야에 속합니다.
그렇다면 강화학습에는 모델 기반 RL이 많이 있지 않나요? 모델과 월드 모델의 차이점은 무엇인가요? 대답은 차이가 없고 똑같다는 것입니다. Jurgen이 먼저 말했어요
기본적인 의미는 모델 기반 RL 작업이 아무리 많이 수행되더라도 저는 모델을 하기 위해 RNN을 발명했고 그냥 하고 싶다는 것입니다.
Jurgen의 기사 초기 버전에서 그는 모델 기반 RL을 많이 언급했지만 모델에서 RL을 완전히 훈련하지는 않았습니다.
RL이 모델에서 완전히 훈련되지 않았다는 사실은 실제로 모델 기반 RL과 모델의 차이가 아니라 모델 기반 RL 방향에 대한 오랜 좌절감입니다. 모델이 충분히 정확하지 않고 RL이 완전히 모델로 훈련된 것은 매우 효과적입니다. 이 문제는 최근에야 해결되었습니다.
Smart Sutton은 오래전부터 부정확한 모델의 문제를 깨달았습니다. 1990년 Dyna 프레임워크를 제안한 동적 프로그래밍 기반 학습, 계획 및 반응을 위한 통합 아키텍처(Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming)(컨퍼런스가 된 최초의 워크숍인 ICML에 게시됨)에서는 이 모델을 액션 모델이라고 부르며 결과 예측을 강조했습니다. 행동 실행.
RL은 잘못된 전략으로 인한 부정확한 모델 학습을 방지하기 위해 모델(5행)에서 학습하는 동안 실제 데이터(3행)에서 학습합니다.
세계 모델이 의사 결정에 매우 중요하다는 것을 알 수 있습니다. 정확한 세계 모델을 얻을 수 있다면 세계 모델에 대한 시행착오를 통해 현실에서 최적의 결정을 찾을 수 있습니다.
이것이 바로 세계 모델의 핵심 기능입니다. 즉, 반사실 추론, 즉 데이터에서 볼 수 없는 결정에 대해서도 결정의 결과를 세계 모델에서 추론할 수 있다는 것입니다.
인과 추론을 이해하는 학생들은 반사실 추론이라는 용어에 익숙할 것입니다. Turing Award 수상자인 Judea Pearl의 인기 과학 책인 Why 책에서는 인과 관계 사다리가 그려져 있는데, 이것이 바로 오늘날입니다. 대부분의 예측 모델이 주로 수행하는 작업은 중간 계층이며, 강화 학습의 탐색은 전형적인 개입이며, 상상을 통해 가정에 대한 질문에 대답합니다. 반사실 추론을 위해 Judea가 그린 도식 다이어그램은 과학자들이 두뇌에서 상상하는 것이며, 이는 Jurgen이 그의 논문에서 사용한 도식 다이어그램과 유사합니다.
왼쪽: Jurgen의 논문에 있는 세계 모델의 개략도. 오른쪽: 유대서에 나오는 원인과 결과의 사다리.
이 시점에서 AI 연구자들이 추구하는 세계 모델은 데이터를 초월하여 반사실적 추론을 수행하고, 만약 질문에 대답하는 능력을 추구하는 것이라고 요약할 수 있습니다. 이는 인간이 타고난 능력이지만, 현재의 AI는 아직 이 능력이 매우 부족합니다. 획기적인 발전이 이루어지면 AI 의사결정 능력이 크게 향상되어 완전 자율주행과 같은 시나리오 적용이 가능해진다.
시뮬레이터라는 단어는 엔지니어링 분야에서 더 많이 사용되는데요. 월드 모델처럼 기능하며, 현장에서 구현하기 어려운 고비용, 고위험 시행착오를 시도합니다. 현실 세계. OpenAI는 문구를 재구성하려는 것 같지만 의미는 그대로 유지됩니다.
소라가 생성한 영상은 모호한 프롬프트 단어로만 안내할 수 있어 정확한 제어가 어렵습니다. 따라서 이는 비디오 도구에 가깝고 What If 질문에 정확하게 답하기 위한 반사실적 추론 도구로 사용하기가 어렵습니다.
데모 영상이 훈련 데이터와 얼마나 다른지 완전히 불분명하기 때문에 소라의 생성 능력이 얼마나 강한지 평가하기조차 어렵습니다.
더 실망스러운 점은 이 데모를 보면 소라가 물리 법칙을 정확하게 배우지 못했다는 점입니다. 소라가 생성한 영상에서 물리법칙과의 불일치를 지적하는 사람을 본 적이 있습니다. [OpenAI가 빈센트 영상 모델을 출시했습니다. 소라, AI는 움직이는 물리적 세계를 이해할 수 있습니다. 이것이 세계 모델인가요? 무슨 뜻이에요? ]
OpenAI에서 출시하는 데모는 CG에서 생성된 데이터를 포함하여 매우 충분한 교육 데이터를 기반으로 해야 한다고 생각합니다. 그러나 그럼에도 불구하고 소수의 변수를 갖는 방정식으로 설명할 수 있는 물리법칙은 아직 파악되지 않고 있다.
OpenAI는 소라가 물리적 세계의 시뮬레이터로 가는 길을 증명했다고 믿지만 단순히 데이터를 쌓는 것은 더 발전된 지능 기술로 가는 길이 아닌 것 같습니다.
위 내용은 Nanda Yu Yang의 심층 해석: '세계 모델'이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!