확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.-일체 포함-php.cn

다양한 강화 학습 관련 문제에 적용

미래 전망

Table

집

기술 주변기기

일체 포함

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

王林

Mar 11, 2024 pm 01:01 PM

모델 종이 에뮬레이터

방에 서서 문을 향해 걸어갈 준비를 하고 있을 때 자동회귀를 통해 점진적으로 경로를 계획하고 있다고 상상해 보세요. 실제로 경로는 한 번에 전체적으로 생성됩니다.

최신 연구에서는 확산 모델을 사용하는 계획 모듈이 동시에 긴 시퀀스 궤적 계획을 생성할 수 있으며 이는 인간의 의사 결정에 더 부합한다고 지적합니다. 또한, 확산 모델은 정책 표현 및 데이터 합성 측면에서 기존 의사결정 지능 알고리즘에 보다 최적화된 솔루션을 제공할 수도 있습니다.

Shanghai Jiao Tong University 팀이 작성한 리뷰 논문 "강화 학습을 위한 확산 모델: 설문 조사"는 강화 학습과 관련된 분야에서 확산 모델의 적용을 빗나가고 있습니다. 리뷰에서는 기존 강화학습 알고리즘이 긴 순서 계획의 오류 누적, 제한된 정책 표현 기능, 부족한 대화형 데이터 등의 문제에 직면해 있다고 지적합니다. 확산 모델은 강화학습 문제를 해결하는 데 장점이 있으며 위의 문제를 해결하는 데 사용되었습니다. . 오랜 도전은 새로운 아이디어를 가져옵니다. 논문 링크: https://arxiv.org/abs/2311.01223

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

프로젝트 주소: https://github.com/apexrl/Diff4RLSurvey

이 리뷰는 확산 모델 학습에서의 역할을 분류하고, 다양한 강화학습 시나리오에서 확산 모델의 성공적인 사례를 요약합니다. 마지막으로, 강화학습 문제를 해결하기 위해 확산 모델을 활용하는 향후 개발 방향을 기대한다.

그림은 고전적인 에이전트-환경-경험 재생 풀 주기에서 확산 모델의 역할을 보여줍니다. 기존 솔루션과 비교하여 확산 모델은 시스템에 새로운 요소를 도입하고 보다 포괄적인 정보 상호 작용 및 학습 기회를 제공합니다. 이런 방식으로 에이전트는 환경 변화에 더 잘 적응하고 의사 결정을 최적화할 수 있습니다

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

강화 학습에서 확산 모델의 역할

이 기사는 강화 학습에서 확산 모델의 역할에 따라 분류됩니다. 확산모델의 적용방법과 특성을 비교한다.

그림 2: 강화 학습에서 확산 모델이 수행하는 다양한 역할.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

궤적 계획

강화 학습의 계획이란 동적 모델을 사용하여 상상 속에서 결정을 내린 다음 적절한 조치를 선택하여 누적 보상을 최대화하는 것을 의미합니다. 계획 프로세스에서는 의사 결정의 장기적인 효율성을 향상시키기 위해 일련의 작업과 상태를 탐색하는 경우가 많습니다. 모델 기반 강화 학습(MBRL) 프레임워크에서 계획 순서는 종종 자동 회귀 방식으로 시뮬레이션되어 오류가 누적됩니다. 확산 모델은 다단계 계획 순서를 동시에 생성할 수 있습니다. 확산모델을 활용한 기존 기사에서 생성된 타겟은 (s,a,r), (s,a), only s, only a 등 매우 다양합니다. 온라인 평가 중에 높은 보상 궤적을 생성하기 위해 많은 작업에서는 분류기 유무에 관계없이 안내 샘플링 기술을 사용합니다.

정책 표현

확산 플래너는 기존 강화 학습의 MBRL과 더 유사합니다. 반면, 확산 모델을 정책으로 사용하는 것은 모델 없는 강화 학습과 더 유사합니다. Diffusion-QL은 먼저 확산 전략과 Q-learning 프레임워크를 결합합니다. 확산 모델은 기존 모델보다 다중 모드 분포를 훨씬 더 잘 맞출 수 있기 때문에 확산 전략은 여러 행동 전략으로 샘플링된 다중 모드 데이터 세트에서 잘 수행됩니다. 확산 전략은 일반적인 전략과 동일하며 일반적으로 Q(s,a) 함수의 최대화를 고려하면서 상태를 조건으로 액션을 생성합니다. Diffusion-QL과 같은 방법은 확산 모델을 훈련할 때 가중치 함수 항을 추가하는 반면, CEP는 에너지 관점에서 가중 회귀 목표를 구성하고 가치 함수를 확산 모델에서 학습한 동작 분포를 조정하는 요인으로 사용합니다.

데이터 합성

확산 모델은 오프라인이나 온라인 강화 학습에서 희소 데이터 문제를 완화하기 위한 데이터 합성기로 사용할 수 있습니다. 기존의 강화 학습 데이터 향상 방법은 일반적으로 원본 데이터를 약간만 교란할 수 있는 반면, 확산 모델의 강력한 분포 피팅 기능을 사용하면 전체 데이터 세트의 분포를 직접 학습한 다음 새로운 고품질 데이터를 샘플링할 수 있습니다.

다른 유형

위 카테고리 외에도 확산 모델을 다른 방식으로 활용한 작품도 산재해 있습니다. 예를 들어 DVF는 확산 모델을 사용하여 가치 함수를 추정합니다. LDCQ는 먼저 잠재 공간으로의 궤적을 인코딩한 다음 잠재 공간에 확산 모델을 적용합니다. PolyGRAD는 확산 모델을 사용하여 학습 환경을 동적으로 전송함으로써 정책과 모델 상호 작용을 통해 정책 학습 효율성을 향상시킵니다.

다양한 강화 학습 관련 문제에 적용

오프라인 강화 학습

확산 모델의 도입은 오프라인 강화 학습 전략이 다중 모드 데이터 분포에 적합하도록 돕고 전략의 특성화를 확장합니다. 능력. Diffuser는 먼저 분류자 지침을 기반으로 하는 고보상 궤도 생성 알고리즘을 제안했으며 많은 후속 작업에 영감을 주었습니다. 동시에 확산 모델은 다중 작업 및 다중 에이전트 강화 학습 시나리오에도 적용될 수 있습니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 3: 디퓨저 궤적 생성 프로세스 및 모델의 도식 다이어그램

온라인 강화 학습

연구원들은 확산 모델이 가치 기능과 전략을 최적화하는 능력도 있음을 입증했습니다. 온라인 강화 학습. 예를 들어 DIPO는 행동 데이터에 레이블을 다시 지정하고 확산 모델 훈련을 사용하여 가치 기반 훈련의 불안정성을 방지합니다. CPQL은 전략으로서의 단일 단계 샘플링 확산 모델이 상호 작용 중에 탐색과 활용의 균형을 맞출 수 있음을 확인했습니다.

모방 학습

모방 학습은 전문가의 시연 데이터를 학습하여 전문가의 행동을 재구성합니다. 확산모델을 적용하면 정책표현 능력을 향상시키고 다양한 업무기술을 습득할 수 있습니다. 로봇 제어 분야의 연구에 따르면 확산 모델은 시간적 안정성을 유지하면서 폐쇄 루프 동작 순서를 예측할 수 있습니다. 확산 정책은 이미지 입력의 확산 모델을 사용하여 로봇 동작 시퀀스를 생성합니다. 실험에 따르면 확산 모델은 타이밍 일관성을 보장하면서 효과적인 폐쇄 루프 동작 시퀀스를 생성할 수 있습니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 4: 확산 정책 모델 도식

궤적 생성

강화 학습에서 확산 모델의 궤적 생성은 주로 두 가지 유형의 작업, 즉 인간 행동 생성과 로봇 제어에 중점을 둡니다. . 확산 모델에 의해 생성된 동작 데이터 또는 비디오 데이터는 시뮬레이션 시뮬레이터를 구축하거나 다운스트림 의사 결정 모델을 교육하는 데 사용됩니다. UniPi는 일반적인 전략으로 비디오 생성 확산 모델을 훈련하고, 다양한 역동역학 모델에 액세스하여 기본 제어 명령을 획득함으로써 크로스 바디 로봇 제어를 달성합니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 5: UniPi 의사 결정 프로세스의 개략도.

데이터 향상

확산 모델은 원본 데이터 분포에 직접 맞출 수도 있어 신뢰성을 유지하면서 동적으로 확장된 다양한 데이터를 제공합니다. 예를 들어 SynthER와 MTDiff-s는 확산 모델을 통해 훈련 작업의 완전한 환경 전달 정보를 생성하고 이를 정책 개선에 적용하며, 그 결과 생성된 데이터의 다양성과 정확성이 과거 방법보다 우수하다는 것을 보여줍니다.

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 6: 다중 작업 계획 및 데이터 향상을 위한 MTDiff의 개략도

미래 전망

생성 시뮬레이션 환경

그림 1과 같이 기존 주로 연구하다 에이전트의 한계를 극복하고 재생 풀을 경험하기 위해 확산 모델이 사용되며, 시뮬레이션 환경을 향상시키기 위해 확산 모델을 사용한 연구는 상대적으로 적습니다. Gen2Sim은 Vincentian 그래프 확산 모델을 사용하여 시뮬레이션 환경에서 다양한 조작 가능한 개체를 생성하여 정밀 로봇 작업의 일반화 능력을 향상시킵니다. 또한 확산 모델은 시뮬레이션 환경의 다중 에이전트 상호 작용에서 상태 전환 기능, 보상 기능 또는 적대적인 행동을 생성할 수 있는 잠재력을 가지고 있습니다.

안전 제약 조건 추가

안전 제약 조건을 모델의 샘플링 조건으로 사용하면 확산 모델을 기반으로 하는 에이전트가 특정 제약 조건을 충족하는 결정을 내릴 수 있습니다. 확산 모델의 유도 샘플링을 사용하면 추가 분류자를 학습하여 새로운 보안 제약 조건을 지속적으로 추가할 수 있으며, 원래 모델의 매개변수는 변경되지 않고 유지되므로 추가 교육 오버헤드가 절약됩니다.

검색 강화 생성

검색 강화 생성 기술은 외부 데이터 세트에 액세스하여 모델 기능을 향상시킬 수 있으며 대규모 언어 모델에 널리 사용됩니다. 이러한 상태에서 확산 기반 결정 모델의 성능은 에이전트의 현재 상태와 관련된 궤적을 검색하고 이를 모델에 입력함으로써 향상될 수도 있습니다. 검색 데이터 세트가 지속적으로 업데이트되면 에이전트가 재교육을 받지 않고도 새로운 동작을 보일 수 있습니다.

여러 기술 결합

분류자 지침과 결합되거나 분류자 지침이 없는 확산 모델은 여러 간단한 기술을 결합하여 복잡한 작업을 완료할 수 있습니다. 오프라인 강화 학습의 초기 결과는 또한 확산 모델이 서로 다른 기술 간에 지식을 공유할 수 있어 서로 다른 기술을 결합하여 제로샷 전이 또는 연속 학습을 달성할 수 있음을 시사합니다.

Table

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

그림 7: 관련 논문의 요약 및 분류 표.

위 내용은 확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7532

Cakephp 튜토리얼

1379

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

joiplay 시뮬레이터 사용법 소개 May 04, 2024 pm 06:40 PM

jojplay 시뮬레이터는 매우 사용하기 쉬운 휴대폰 시뮬레이터입니다. 컴퓨터 게임을 지원하고 휴대폰에서 실행할 수 있으며 호환성이 매우 좋습니다. 아래 편집기에서 소개하겠습니다. 사용 방법. joiplay 시뮬레이터 사용 방법 1. 먼저 Joiplay 본체와 RPGM 플러그인을 다운로드해야 합니다. 본체 - 플러그인 순서대로 설치하는 것이 가장 좋습니다. apk 패키지는 Joiplay 바에서 얻을 수 있습니다. >>>를 얻으려면 클릭하세요). 2. 안드로이드가 완성되면 왼쪽 하단에서 게임을 추가할 수 있습니다. 3. 이름을 아무렇게나 입력하고, 실행 파일에서 CHOOSE를 누르면 해당 게임의 game.exe 파일이 선택됩니다. 4. 아이콘을 비워두거나 좋아하는 사진을 선택할 수 있습니다.

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

라이프 리스타트 시뮬레이터 가이드 May 07, 2024 pm 05:28 PM

Life Restart Simulator는 매우 흥미로운 시뮬레이션 게임입니다. 이 게임은 최근 매우 인기를 끌었습니다. 아래에서 편집자가 Life Restart Simulator에 대한 전체 가이드를 가져왔습니다. 전략이 있나요? Life Restart Simulator 가이드 가이드 Life Restart Simulator의 특징 이것은 플레이어가 자신의 아이디어에 따라 플레이할 수 있는 매우 창의적인 게임입니다. 매일 완료해야 할 작업이 많으며 이 가상 세계에서 새로운 삶을 누릴 수 있습니다. 게임에는 많은 노래가 있으며, 다양한 삶이 여러분의 경험을 기다리고 있습니다. Life Restart Simulator 게임 콘텐츠 재능 그리기 카드: 재능: 불멸자가 되려면 신비한 작은 상자를 선택해야 합니다. 도중에 죽는 것을 방지하기 위해 다양한 작은 캡슐을 사용할 수 있습니다. 크툴루는 선택할 수 있다

joiplay 시뮬레이터 글꼴 설정 방법 소개 May 09, 2024 am 08:31 AM

jojplay 시뮬레이터는 실제로 게임 글꼴을 사용자 정의할 수 있으며 텍스트에서 누락된 문자 및 상자 문자 문제를 해결할 수 있습니다. 아마도 많은 플레이어가 이를 작동하는 방법을 모르는 것 같습니다. jojplay 시뮬레이터의 글꼴을 소개합니다. joiplay 시뮬레이터 글꼴 설정 방법 1. 먼저 joiplay 시뮬레이터를 열고 오른쪽 상단에 있는 설정(점 3개)을 클릭하여 찾습니다. 2. RPGMSettings 열의 세 번째 행에서 CustomFont 사용자 정의 글꼴을 클릭하여 선택합니다. 3. 글꼴 파일을 선택하고 확인을 클릭합니다. 오른쪽 하단에 있는 "저장" 아이콘을 클릭하지 않도록 주의하세요. 그렇지 않으면 기본 설정이 복원됩니다. 4. 설립자 및 준원 간체 한자를 권장합니다(이미 Fuxing 및 Rebirth 게임 폴더에 있음). 조이

천둥 및 번개 시뮬레이터 애플리케이션을 삭제하는 방법은 무엇입니까? -Thunderbolt Simulator에서 애플리케이션을 삭제하는 방법은 무엇입니까? May 08, 2024 pm 02:40 PM

Thunderbolt Simulator의 공식 버전은 매우 전문적인 Android 에뮬레이터 도구입니다. 그렇다면 천둥 및 번개 시뮬레이터 애플리케이션을 삭제하는 방법은 무엇입니까? Thunderbolt Simulator에서 애플리케이션을 삭제하는 방법은 무엇입니까? 편집자가 아래 답변을 드리겠습니다! 천둥 및 번개 시뮬레이터 애플리케이션을 삭제하는 방법은 무엇입니까? 1. 삭제하려는 앱의 아이콘을 길게 클릭하세요. 2. 앱 제거 또는 삭제 옵션이 나타날 때까지 잠시 기다립니다. 3. 앱을 제거 옵션으로 드래그하세요. 4. 팝업되는 확인창에서 확인을 클릭하시면 애플리케이션 삭제가 완료됩니다.

공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! May 06, 2024 pm 04:13 PM

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

미 공군이 주목할만한 최초의 AI 전투기를 선보였습니다! 전 과정에 걸쳐 장관이 직접 간섭 없이 테스트를 진행했고, 10만 줄의 코드를 21차례 테스트했다. May 07, 2024 pm 05:00 PM

최근 군계는 미군 전투기가 이제 AI를 활용해 완전 자동 공중전을 완수할 수 있다는 소식에 충격을 받았다. 네, 얼마 전 미군의 AI 전투기가 최초로 공개되면서 그 미스터리가 드러났습니다. 이 전투기의 정식 명칭은 VISTA(Variable Stability Flight Simulator Test Aircraft)로 미 공군 장관이 직접 조종해 일대일 공중전을 모의 실험한 것이다. 5월 2일, 미 공군 장관 프랭크 켄달(Frank Kendall)이 X-62AVISTA를 타고 에드워드 공군 기지에서 이륙했습니다. 1시간의 비행 동안 모든 비행 작업은 AI에 의해 자동으로 완료되었습니다. Kendall은 "지난 수십 년 동안 우리는 자율 공대공 전투의 무한한 잠재력에 대해 생각해 왔지만 항상 도달할 수 없는 것처럼 보였습니다."라고 말했습니다. 그러나 지금은,

See all articles

확산 모델은 어떻게 차세대 의사 결정 주체를 구축합니까? 자동 회귀를 넘어 긴 시퀀스 계획 궤적을 동시에 생성합니다.

다양한 강화 학습 관련 문제에 적용

미래 전망

Table

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제