새로운 DeepMind 연구: 변압기는 인간의 개입 없이 스스로 개선될 수 있습니다
현재 Transformers는 시퀀스 모델링을 위한 강력한 신경망 아키텍처가 되었습니다. 사전 학습된 변환기의 주목할만한 속성은 큐 조절 또는 상황별 학습을 통해 다운스트림 작업에 적응하는 능력입니다. 대규모 오프라인 데이터 세트에 대한 사전 학습 후 대규모 변환기는 텍스트 완성, 언어 이해 및 이미지 생성의 다운스트림 작업에 효율적으로 일반화되는 것으로 나타났습니다.
최근 연구에 따르면 변환기는 오프라인 강화 학습(RL)을 순차 예측 문제로 처리하여 오프라인 데이터에서도 정책을 학습할 수 있는 것으로 나타났습니다. Chen et al.(2021)의 연구에서는 변환기가 모방 학습을 통해 오프라인 RL 데이터에서 단일 작업 정책을 학습할 수 있음을 보여주었고, 후속 작업에서는 변환기가 동일 도메인 및 교차 도메인 설정 모두에서 다중 작업 정책을 추출할 수 있음을 보여주었습니다. 이러한 연구는 모두 일반적인 다중 작업 정책을 추출하기 위한 패러다임, 즉 먼저 대규모의 다양한 환경 상호 작용 데이터 세트를 수집한 다음 순차 모델링을 통해 데이터에서 정책을 추출하는 패러다임을 보여줍니다. 이렇게 오프라인 RL 데이터로부터 모방 학습을 통해 정책을 학습하는 방식을 오프라인 정책 증류(Offline Policy Distillation) 또는 정책 증류(Policy Distillation, PD)라고 합니다.
PD는 단순성과 확장성을 제공하지만, 생성된 정책이 환경과의 추가적인 상호 작용을 통해 점진적으로 개선되지 않는다는 것이 큰 단점 중 하나입니다. 예를 들어 Google의 제너럴리스트 에이전트인 Multi-Game Decision Transformers는 많은 Atari 게임을 플레이할 수 있는 반환 조건 정책을 학습했으며, DeepMind의 제너럴리스트 에이전트인 Gato는 환경 내 작업에 대한 상황별 작업 전략을 통해 다양한 문제에 대한 솔루션을 학습했습니다. 안타깝게도 두 에이전트 모두 시행착오를 통해 상황에 맞게 정책을 개선할 수 없습니다. 따라서 PD 방법은 강화학습 알고리즘이 아닌 정책을 학습합니다.
최근 DeepMind 논문에서 연구자들은 PD가 시행착오를 거쳐 개선되지 못한 이유는 훈련에 사용된 데이터가 학습 진행 상황을 보여주지 못하기 때문이라는 가설을 세웠습니다. 현재 방법은 학습이 포함되지 않은 데이터(예: 증류를 통한 고정 전문가 정책)에서 정책을 학습하거나 학습이 포함된 데이터(예: RL 에이전트의 재생 버퍼)에서 정책을 학습하지만 후자의 컨텍스트 크기( 너무 작음) 정책 개선 사항을 포착하지 못했습니다.
문서 주소: https://arxiv.org/pdf/2210.14215.pdf
연구원의 주요 관찰은 RL 알고리즘 훈련에서 학습의 순차적 특성이 원칙적으로 강화 학습이 될 수 있다는 것입니다. 그 자체는 인과관계 예측 문제로 모델링됩니다. 구체적으로, 변환기의 컨텍스트가 업데이트 학습을 통해 가져온 정책 개선을 포함할 만큼 충분히 길다면 고정된 정책을 나타낼 수 있을 뿐만 아니라 상태에 초점을 맞춰 정책 개선 알고리즘을 나타낼 수도 있어야 합니다. , 액션, 이전 에피소드의 보상. 이를 통해 모든 RL 알고리즘은 모방 학습을 통해 변환기와 같은 충분히 강력한 시퀀스 모델로 정제될 수 있고 이러한 모델은 상황별 RL 알고리즘으로 변환될 수 있는 가능성이 열립니다.
연구진은 RL 알고리즘 학습 내역에서 인과 시퀀스 예측 손실을 최적화하여 상황별 정책 개선 연산자를 학습하는 방법인 AD(Algorithm Distillation)를 제안했습니다. 아래 그림 1과 같이 AD는 두 부분으로 구성됩니다. 먼저 다수의 개별 작업에 대한 RL 알고리즘의 훈련 기록을 저장하여 대규모 다중 작업 데이터 세트가 생성된 다음 변환기 모델은 이전 학습 기록을 컨텍스트로 사용하여 인과적으로 동작을 모델링합니다. 원본 RL 알고리즘을 훈련하는 동안 정책이 계속 개선되기 때문에 AD는 훈련 기록의 특정 지점에서 작업을 정확하게 모델링하기 위해 향상된 연산자를 학습해야 합니다. 결정적으로, 변환기 컨텍스트는 훈련 데이터의 개선 사항을 포착할 수 있을 만큼 충분히 커야 합니다(즉, 에피소드 전반에 걸쳐).
연구원들은 그래디언트 기반 RL 알고리즘을 모방할 만큼 충분히 큰 맥락을 가진 인과 변환기를 사용함으로써 AD가 맥락에서 새로운 작업 학습을 완전히 강화할 수 있다고 말했습니다. 우리는 DMLab의 픽셀 기반 Watermaze를 포함하여 탐색이 필요한 부분적으로 관찰 가능한 여러 환경에서 AD를 평가했으며 AD가 컨텍스트 탐색, 시간적 신뢰 할당 및 일반화가 가능하다는 것을 보여주었습니다. 또한 AD에서 학습한 알고리즘은 변환기 훈련 소스 데이터를 생성한 알고리즘보다 더 효율적입니다.
마지막으로 AD는 오프라인 데이터를 모방 손실로 순차적으로 모델링하여 상황별 강화 학습을 보여주는 첫 번째 방법이라는 점에 주목할 가치가 있습니다.
방법
강화 학습 에이전트는 수명 주기 동안 복잡한 작업을 잘 수행해야 합니다. 지능형 에이전트의 경우 환경, 내부 구조 및 실행에 관계없이 과거 경험을 바탕으로 완성되었다고 볼 수 있습니다. 이는 다음과 같은 형식으로 표현될 수 있습니다:
연구원은 또한 "오랜 역사 조건부" 전략을 알고리즘으로 간주하여 다음과 같이 나왔습니다.
여기서 Δ(A)는 동작을 나타냅니다. 공간 A의 확률 분포 공간입니다. 방정식 (3)은 알고리즘이 환경에서 전개되어 일련의 관찰, 보상 및 행동을 생성할 수 있음을 보여줍니다. 단순화를 위해 이 연구에서는 알고리즘을 P로, 환경(예: 작업)을 로 표시합니다. 학습 내역은 알고리즘
으로 표시되므로 주어진 작업에 대해
이 생성됩니다. 얻을 수 있습니다
연구원들은 대문자 라틴 문자를 사용하여 O, A, R 및 해당 소문자 형태 o, α, r과 같은 확률 변수를 나타냅니다. 그들은 알고리즘을 장기적인 기록 조건 정책으로 봄으로써 학습 기록을 생성하는 모든 알고리즘이 행동의 행동 복제를 수행함으로써 신경망으로 변환될 수 있다는 가설을 세웠습니다. 다음으로, 이 연구는 행동 분포에 대한 장기 기록을 매핑하기 위해 행동 클론을 사용하여 시퀀스 모델의 평생 학습을 에이전트에 제공하는 접근 방식을 제안합니다.
실제 구현
본 연구에서는 실제로 알고리즘 증류(AD)를 2단계 프로세스로 구현합니다. 첫째, 학습 기록 데이터 세트는 다양한 작업에 대해 개별 그래디언트 기반 RL 알고리즘을 실행하여 수집됩니다. 다음으로, 다중 에피소드 컨텍스트를 갖춘 시퀀스 모델을 훈련하여 역사의 행동을 예측합니다. 구체적인 알고리즘은 다음과 같습니다.
Experiments
실험을 위해서는 사용된 환경이 관찰에서 쉽게 추론할 수 없는 많은 작업을 지원해야 하며, 에피소드는 교차 에피소드 인과 변환기를 효과적으로 훈련할 수 있을 만큼 충분히 짧습니다. 이 작업의 주요 목표는 AD 강화가 이전 작업과 관련된 맥락에서 학습되는 정도를 조사하는 것이었습니다. 실험에서는 AD, ED(Expert Distillation), RL^2 등을 비교했습니다.
AD, ED, RL^2를 평가한 결과는 그림 3에 나와 있습니다. 이 연구에서는 AD와 RL^2 모두 훈련 분포에서 샘플링된 작업에 대해 상황에 따라 학습할 수 있는 반면 ED는 그렇지 못하지만 분포 내에서 평가할 때 ED가 무작위 추측보다 더 나은 성능을 발휘한다는 사실을 발견했습니다.
아래 그림 4에 대해 연구자는 일련의 질문에 답했습니다. AD는 상황별 강화 학습을 보여줍니까? 결과는 AD 상황별 강화 학습이 모든 환경에서 학습할 수 있는 반면, ED는 대부분의 상황에서 맥락을 탐색하고 학습할 수 없음을 보여줍니다.
AD가 픽셀 기반 관찰을 통해 학습할 수 있나요? 결과는 AD가 상황별 RL을 통해 에피소드 회귀를 최대화하는 반면 ED는 학습에 실패한다는 것을 보여줍니다.
AD 원본 데이터를 생성한 알고리즘보다 더 효율적인 RL 알고리즘을 학습할 수 있나요? 결과는 AD의 데이터 효율성이 소스 알고리즘(A3C 및 DQN)보다 훨씬 높다는 것을 보여줍니다.
데모를 통해 AD 속도를 높일 수 있나요? 이 질문에 대답하기 위해 이 연구에서는 테스트 세트 데이터에서 소스 알고리즘의 기록을 따라 서로 다른 지점에서 샘플링 전략을 유지한 다음 이 전략 데이터를 사용하여 AD 및 ED의 컨텍스트를 미리 채우고 두 방법을 모두 실행합니다. Dark Room의 맥락에서 결과는 그림 5에 표시됩니다. ED는 입력 정책의 성능을 유지하는 반면 AD는 최적에 가까워질 때까지 상황에 맞게 각 정책을 개선합니다. 중요한 것은 입력 전략이 최적화될수록 최적 상태에 도달할 때까지 AD가 더 빠르게 개선된다는 것입니다.
자세한 내용은 원문을 참고해주세요.
위 내용은 새로운 DeepMind 연구: 변압기는 인간의 개입 없이 스스로 개선될 수 있습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











DDREASE는 하드 드라이브, SSD, RAM 디스크, CD, DVD 및 USB 저장 장치와 같은 파일 또는 블록 장치에서 데이터를 복구하기 위한 도구입니다. 한 블록 장치에서 다른 블록 장치로 데이터를 복사하여 손상된 데이터 블록은 남겨두고 양호한 데이터 블록만 이동합니다. ddreasue는 복구 작업 중에 간섭이 필요하지 않으므로 완전히 자동화된 강력한 복구 도구입니다. 게다가 ddasue 맵 파일 덕분에 언제든지 중지하고 다시 시작할 수 있습니다. DDREASE의 다른 주요 기능은 다음과 같습니다. 복구된 데이터를 덮어쓰지 않지만 반복 복구 시 공백을 채웁니다. 그러나 도구에 명시적으로 지시된 경우에는 잘릴 수 있습니다. 여러 파일이나 블록의 데이터를 단일 파일로 복구

0. 이 글은 어떤 내용을 담고 있나요? 우리는 다재다능하고 빠른 최첨단 생성 단안 깊이 추정 모델인 DepthFM을 제안합니다. DepthFM은 전통적인 깊이 추정 작업 외에도 깊이 인페인팅과 같은 다운스트림 작업에서 최첨단 기능을 보여줍니다. DepthFM은 효율적이며 몇 가지 추론 단계 내에서 깊이 맵을 합성할 수 있습니다. 이 작품을 함께 읽어보아요~ 1. 논문 정보 제목: DepthFM: FastMoncularDepthEstimationwithFlowMatching 저자: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Excel에서 여러 기준으로 필터링을 사용하는 방법을 알아야 하는 경우 다음 자습서에서는 데이터를 효과적으로 필터링하고 정렬할 수 있는 단계를 안내합니다. Excel의 필터링 기능은 매우 강력하며 많은 양의 데이터에서 필요한 정보를 추출하는 데 도움이 될 수 있습니다. 이 기능을 사용하면 설정한 조건에 따라 데이터를 필터링하고 조건에 맞는 부분만 표시하여 데이터 관리를 더욱 효율적으로 할 수 있습니다. 필터 기능을 사용하면 대상 데이터를 빠르게 찾을 수 있어 데이터 검색 및 정리에 드는 시간을 절약할 수 있습니다. 이 기능은 단순한 데이터 목록에만 적용할 수 있는 것이 아니라, 여러 조건에 따라 필터링하여 필요한 정보를 보다 정확하게 찾을 수 있도록 도와줍니다. 전반적으로 Excel의 필터링 기능은 매우 실용적입니다.

하지만 공원에 있는 노인을 이길 수는 없을까요? 파리올림픽이 본격화되면서 탁구가 많은 주목을 받고 있다. 동시에 로봇은 탁구 경기에서도 새로운 돌파구를 마련했습니다. 방금 DeepMind는 탁구 경기에서 인간 아마추어 선수 수준에 도달할 수 있는 최초의 학습 로봇 에이전트를 제안했습니다. 논문 주소: https://arxiv.org/pdf/2408.03906 DeepMind 로봇은 탁구를 얼마나 잘 치나요? 아마도 인간 아마추어 선수들과 동등할 것입니다: 포핸드와 백핸드 모두: 상대는 다양한 플레이 스타일을 사용하고 로봇도 견딜 수 있습니다: 다양한 스핀으로 서브를 받습니다. 그러나 게임의 강도는 그만큼 강렬하지 않은 것 같습니다. 공원에 있는 노인. 로봇용, 탁구용

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

지연이 발생하고 iPhone의 모바일 데이터 연결 속도가 느립니까? 일반적으로 휴대폰의 셀룰러 인터넷 강도는 지역, 셀룰러 네트워크 유형, 로밍 유형 등과 같은 여러 요소에 따라 달라집니다. 더 빠르고 안정적인 셀룰러 인터넷 연결을 얻기 위해 할 수 있는 일이 몇 가지 있습니다. 수정 1 – iPhone 강제 다시 시작 때로는 장치를 강제로 다시 시작하면 셀룰러 연결을 포함한 많은 항목이 재설정됩니다. 1단계 – 볼륨 높이기 키를 한 번 눌렀다가 놓습니다. 그런 다음 볼륨 작게 키를 눌렀다가 다시 놓습니다. 2단계 - 프로세스의 다음 부분은 오른쪽에 있는 버튼을 누르는 것입니다. iPhone이 다시 시작되도록 하세요. 셀룰러 데이터를 활성화하고 네트워크 속도를 확인하세요. 다시 확인하세요 수정 2 – 데이터 모드 변경 5G는 더 나은 네트워크 속도를 제공하지만 신호가 약할 때 더 잘 작동합니다

세상은 미친 듯이 큰 모델을 만들고 있습니다. 인터넷의 데이터만으로는 충분하지 않습니다. 훈련 모델은 '헝거게임'처럼 생겼고, 전 세계 AI 연구자들은 이러한 데이터를 탐식하는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다. 이 문제는 다중 모드 작업에서 특히 두드러집니다. 아무것도 할 수 없던 시기에, 중국 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 '모델 생성 데이터 피드 자체'를 현실화했습니다. 또한 이해 측면과 생성 측면의 두 가지 접근 방식으로 양측 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다. 모델이란 무엇입니까? Awaker 1.0은 중관촌 포럼에 최근 등장한 대형 멀티모달 모델입니다. 팀은 누구입니까? 소폰 엔진. 런민대학교 힐하우스 인공지능대학원 박사과정 학생인 Gao Yizhao가 설립했습니다.

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라
