기술 주변기기 일체 포함 Nanda Yu Yang의 심층 해석: '세계 모델'이란 무엇입니까?

Nanda Yu Yang의 심층 해석: '세계 모델'이란 무엇입니까?

Feb 27, 2024 pm 07:50 PM
ai 데이터

미디어가 소라를 과대평가하면서 OpenAI의 입문 자료에서는 소라를 '월드 시뮬레이터'라고 부르는데, 월드 모델이라는 용어가 다시 등장했지만, 월드 모델을 소개하는 기사는 거의 없습니다.

여기서 월드 모델이 무엇인지 검토하고 소라가 월드 시뮬레이터인지 논의합니다.

세계 모델/세계 모델이란 무엇입니까

AI 분야에서 세계/세계, 환경/환경이라는 단어를 언급할 때는 일반적으로 에이전트/에이전트와 구별하기 위해 사용합니다.

에이전트에 대해 가장 많이 연구되는 분야는 강화학습과 로봇공학입니다.

그러면 세계 모델과 세계 모델링이 로봇 공학 분야의 논문에 가장 먼저, 가장 자주 등장한다는 것을 알 수 있습니다.

오늘날 가장 큰 영향을 미치는 단어 세계 모델은 Jurgen이 2018년 arxiv에 게시한 "world models"이라는 제목의 기사일 것입니다. 해당 기사는 결국 NeurIPS'18에 게재되었습니다.

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

이 논문은 세계 모델이 무엇인지 정의하지 않지만, 1971년 문헌을 인용하여 인지 과학에서 인간 두뇌의 정신 모델에 비유합니다.

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

정신 모델은 주변 세계에 대한 인간 두뇌의 거울 이미지입니다.

위키피디아에 소개된 정신 모델은 인지, 추론, 의사 결정 과정에 참여할 수 있음을 분명히 지적합니다. 그리고 정신 모델의 경우 주로 정신 표현과 정신 시뮬레이션이라는 두 부분으로 구성됩니다.

인지, 추론 및 의사 결정에 중요한 역할을 한다고 가정된 외부 현실의 내부 표현입니다. 이 용어는 1943년 Kenneth Craik이 만들어낸 용어로, 마음이 현실의 "소규모 모델"을 구성한다고 제안했습니다. 이벤트를 예측하는 데 사용됩니다.

이 시점에서는 여전히 약간 혼란스럽습니다. 하지만 논문의 구조 다이어그램은 세계 모델이 무엇인지 명확하게 설명합니다.

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

그림에서 수직 V->z는 VAE에 의해 구현된 관측값의 저차원 표현입니다. 수평 M->h->M->h는 다음과 같습니다. RNN으로 구현된 시퀀스의 예측된 다음 순간을 표현하면 두 부분이 합쳐져 World Model이 됩니다.

즉, World 모델은 주로 상태 표현과 전환 모델을 포함하며, 이는 정신적 표현과 정신적 시뮬레이션에도 해당됩니다.

위 사진을 보시면 서열 예측은 모두 세계 모델이 아닌가 하는 생각이 드실 겁니다.

사실 강화학습에 익숙한 학생들은 이 그림의 구조가 잘못된(불완전) 것을 한 눈에 알 수 있는데, 실제 구조는 아래 그림과 같습니다. RNN의 입력은 z 뿐만 아니라 또한 액션도 일반적인 시퀀스 예측이 아닙니다(액션을 추가하면 큰 차이가 발생합니까? 예, 액션을 추가하면 데이터 배포가 자유롭게 변경될 수 있으므로 큰 문제가 발생합니다).

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

Jurgen의 논문은 강화 학습 분야에 속합니다.

그렇다면 강화학습에는 모델 기반 RL이 많이 있지 않나요? 모델과 월드 모델의 차이점은 무엇인가요? 대답은 차이가 없고 똑같다는 것입니다. Jurgen이 먼저 말했어요

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

기본적인 의미는 모델 기반 RL 작업이 아무리 많이 수행되더라도 저는 모델을 하기 위해 RNN을 발명했고 그냥 하고 싶다는 것입니다.

Jurgen의 기사 초기 버전에서 그는 모델 기반 RL을 많이 언급했지만 모델에서 RL을 완전히 훈련하지는 않았습니다.

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

RL이 모델에서 완전히 훈련되지 않았다는 사실은 실제로 모델 기반 RL과 모델의 차이가 아니라 모델 기반 RL 방향에 대한 오랜 좌절감입니다. 모델이 충분히 정확하지 않고 RL이 완전히 모델로 훈련된 것은 매우 효과적입니다. 이 문제는 최근에야 해결되었습니다.

Smart Sutton은 오래전부터 부정확한 모델의 문제를 깨달았습니다. 1990년 Dyna 프레임워크를 제안한 동적 프로그래밍 기반 학습, 계획 및 반응을 위한 통합 아키텍처(Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming)(컨퍼런스가 된 최초의 워크숍인 ICML에 게시됨)에서는 이 모델을 액션 모델이라고 부르며 결과 예측을 강조했습니다. 행동 실행.

RL은 잘못된 전략으로 인한 부정확한 모델 학습을 방지하기 위해 모델(5행)에서 학습하는 동안 실제 데이터(3행)에서 학습합니다.

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

세계 모델이 의사 결정에 매우 중요하다는 것을 알 수 있습니다. 정확한 세계 모델을 얻을 수 있다면 세계 모델에 대한 시행착오를 통해 현실에서 최적의 결정을 찾을 수 있습니다.

이것이 바로 세계 모델의 핵심 기능입니다. 즉, 반사실 추론, 즉 데이터에서 볼 수 없는 결정에 대해서도 결정의 결과를 세계 모델에서 추론할 수 있다는 것입니다.

인과 추론을 이해하는 학생들은 반사실 추론이라는 용어에 익숙할 것입니다. Turing Award 수상자인 Judea Pearl의 인기 과학 책인 Why 책에서는 인과 관계 사다리가 그려져 있는데, 이것이 바로 오늘날입니다. 대부분의 예측 모델이 주로 수행하는 작업은 중간 계층이며, 강화 학습의 탐색은 전형적인 개입이며, 상상을 통해 가정에 대한 질문에 대답합니다. 반사실 추론을 위해 Judea가 그린 도식 다이어그램은 과학자들이 두뇌에서 상상하는 것이며, 이는 Jurgen이 그의 논문에서 사용한 도식 다이어그램과 유사합니다.

Nanda Yu Yang의 심층 해석: 세계 모델이란 무엇입니까?

왼쪽: Jurgen의 논문에 있는 세계 모델의 개략도. 오른쪽: 유대서에 나오는 원인과 결과의 사다리.

이 시점에서 AI 연구자들이 추구하는 세계 모델은 데이터를 초월하여 반사실적 추론을 수행하고, 만약 질문에 대답하는 능력을 추구하는 것이라고 요약할 수 있습니다. 이는 인간이 타고난 능력이지만, 현재의 AI는 아직 이 능력이 매우 부족합니다. 획기적인 발전이 이루어지면 AI 의사결정 능력이 크게 향상되어 완전 자율주행과 같은 시나리오 적용이 가능해진다.

소라는 월드 시뮬레이터인가

시뮬레이터라는 단어는 엔지니어링 분야에서 더 많이 사용되는데요. 월드 모델처럼 기능하며, 현장에서 구현하기 어려운 고비용, 고위험 시행착오를 시도합니다. 현실 세계. OpenAI는 문구를 재구성하려는 것 같지만 의미는 그대로 유지됩니다.

소라가 생성한 영상은 모호한 프롬프트 단어로만 안내할 수 있어 정확한 제어가 어렵습니다. 따라서 이는 비디오 도구에 가깝고 What If 질문에 정확하게 답하기 위한 반사실적 추론 도구로 사용하기가 어렵습니다.

데모 영상이 훈련 데이터와 얼마나 다른지 완전히 불분명하기 때문에 소라의 생성 능력이 얼마나 강한지 평가하기조차 어렵습니다.

더 실망스러운 점은 이 데모를 보면 소라가 물리 법칙을 정확하게 배우지 못했다는 점입니다. 소라가 생성한 영상에서 물리법칙과의 불일치를 지적하는 사람을 본 적이 있습니다. [OpenAI가 빈센트 영상 모델을 출시했습니다. 소라, AI는 움직이는 물리적 세계를 이해할 수 있습니다. 이것이 세계 모델인가요? 무슨 뜻이에요? ]

OpenAI에서 출시하는 데모는 CG에서 생성된 데이터를 포함하여 매우 충분한 교육 데이터를 기반으로 해야 한다고 생각합니다. 그러나 그럼에도 불구하고 소수의 변수를 갖는 방정식으로 설명할 수 있는 물리법칙은 아직 파악되지 않고 있다.

OpenAI는 소라가 물리적 세계의 시뮬레이터로 가는 길을 증명했다고 믿지만 단순히 데이터를 쌓는 것은 더 발전된 지능 기술로 가는 길이 아닌 것 같습니다.

위 내용은 Nanda Yu Yang의 심층 해석: '세계 모델'이란 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

C 언어로 Char Array를 사용하는 방법 C 언어로 Char Array를 사용하는 방법 Apr 03, 2025 pm 03:24 PM

char 어레이는 문자 시퀀스를 C 언어로 저장하고 char array_name [size]로 선언됩니다. 액세스 요소는 첨자 연산자를 통해 전달되며 요소는 문자열의 끝점을 나타내는 널 터미네이터 '\ 0'으로 끝납니다. C 언어는 strlen (), strcpy (), strcat () 및 strcmp ()와 같은 다양한 문자열 조작 함수를 제공합니다.

C 스위치 문에서 기본적으로 발생하는 오류를 피하십시오 C 스위치 문에서 기본적으로 발생하는 오류를 피하십시오 Apr 03, 2025 pm 03:45 PM

C 스위치 문에서 기본적으로 발생하는 오류를 피하기위한 전략 : 상수 대신 열거를 사용하여 사례 문의 값을 열거의 유효한 멤버로 제한합니다. 마지막 사례 명령문에서 러프를 사용하여 프로그램이 다음 코드를 계속 실행할 수 있도록하십시오. 스위치가없는 스위치 문의 경우 항상 오류 처리에 대한 기본 문을 추가하거나 기본 동작을 제공하십시오.

C 언어 합계의 기능은 무엇입니까? C 언어 합계의 기능은 무엇입니까? Apr 03, 2025 pm 02:21 PM

C 언어에는 내장 합계 기능이 없으므로 직접 작성해야합니다. 합계는 배열 및 축적 요소를 가로 질러 달성 할 수 있습니다. 루프 버전 : 루프 및 배열 길이를 사용하여 계산됩니다. 포인터 버전 : 포인터를 사용하여 배열 요소를 가리키며 효율적인 합계는 자체 증가 포인터를 통해 달성됩니다. 동적으로 배열 버전을 할당 : 배열을 동적으로 할당하고 메모리를 직접 관리하여 메모리 누출을 방지하기 위해 할당 된 메모리가 해제되도록합니다.

C에서! x의 결과를 반대하는 방법은 무엇입니까? C에서! x의 결과를 반대하는 방법은 무엇입니까? Apr 03, 2025 pm 01:57 PM

C 언어에서는 !! x를 사용할 수 있지만 두 개의 부울 전환 만 사용하며 x를 직접 사용하는 것이 더 간결하고 효율적입니다.

스위치 케이스 명령문 (C 언어)에서 기본값의 중요성 스위치 케이스 명령문 (C 언어)에서 기본값의 중요성 Apr 03, 2025 pm 03:57 PM

기본 문은 변수 값이 CASE 문과 일치하지 않을 때 코드 블록이 실행되도록하는 기본 처리 경로를 제공하기 때문에 Switch Case 문에 중요합니다. 이것은 예기치 않은 동작이나 오류를 방지하고 코드의 견고성을 향상시킵니다.

정적 키워드가 C 사용자 식별자의 범위에 미치는 영향은 무엇입니까? 정적 키워드가 C 사용자 식별자의 범위에 미치는 영향은 무엇입니까? Apr 03, 2025 pm 12:09 PM

정적 키워드는 식별자의 범위와 수명주기에 영향을 미칩니다. Global Variable : 소스 파일로 제한되며 현재 파일에서만 표시되며 명명 충돌을 피합니다. 기능 : 소스 파일로 제한되면 현재 파일에서만 표시되며 구현 세부 정보를 숨기고 캡슐화를 향상시킵니다. 로컬 변수 : 수명주기는 전체 프로그램으로 확장되어 기능 호출 간의 값을 유지하며 상태를 기록하는 데 사용될 수 있지만 메모리 관리 위험에주의를 기울일 수 있습니다.

C 언어의 사용자 식별자에 대한 외부 키워드의 영향은 무엇입니까? C 언어의 사용자 식별자에 대한 외부 키워드의 영향은 무엇입니까? Apr 03, 2025 pm 01:00 PM

외부 키워드는 C 언어로 사용됩니다. 외부 변수 및 함수를 선언합니다. 컴파일러는 변수 또는 함수가 다른 곳에 정의되어 있음을 알려줍니다. 이는 컴파일러가 연결 단계에서 정의를 찾도록 지시합니다. Extern은 외부 변수를 선언 할 때 메모리 공간이 할당되지 않으며 해당 정의는 다른 파일에서 수행됩니다. Extern은 외부 기능을 선언하면 기능 구현이 포함되지 않으며 구현은 다른 파일에서도 수행됩니다. 외부 키워드의 사용은 일반적으로 코드 관리에 도움이되며 반복 된 선언을 피하는 헤더 파일과 결합됩니다. 외부의 멀티 파일 컴파일 및 이름 지정 충돌에 대한 Extern의 처리를 이해하는 것이 매우 중요하며 연결 ​​프로세스에서 중요한 역할을합니다.

C 언어의 우선 순위는 무엇입니까! x? C 언어의 우선 순위는 무엇입니까! x? Apr 03, 2025 pm 02:06 PM

논리적 비수기 (!)는 괄호 옆에 우선 순위를 갖습니다. 즉, 표현식에서는 대부분의 다른 연산자보다 우선합니다. 우선 순위를 이해하려면 끔찍한 암기가 필요할뿐만 아니라 더 중요한 것은 복잡한 표현에서 감지 할 수없는 오류를 피하기 위해 논리와 잠재적 인 함정을 이해하는 것입니다. 괄호를 추가하면 표현 의도를 명확하게하고 코드 선명도와 유지 관리를 개선하며 예상치 못한 동작을 방지 할 수 있습니다.

See all articles