기술 주변기기 일체 포함 AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 '어렵기도 하고 다 잡기 쉽다'

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 '어렵기도 하고 다 잡기 쉽다'

Apr 13, 2023 pm 04:19 PM
ai 연산 mit

​누구나 오래된 문제에 직면해 있습니다.

금요일 밤에 식사할 레스토랑을 고르려고 하는데 예약이 없습니다. 사람들로 가득 찬 좋아하는 레스토랑에서 줄을 서서 기다리시겠습니까, 아니면 더 맛있는 놀라움을 발견하기 위해 새로운 레스토랑에 도전하시겠습니까?

후자는 놀라움을 가져올 가능성이 있지만 이러한 호기심에 기반한 행동에는 위험이 따릅니다. 새로 방문한 레스토랑의 음식은 훨씬 더 나쁠 수도 있습니다.

호기심은 AI가 세상을 탐험하는 원동력이며, 자율주행, 로봇 의사결정, 최적화된 탐지 결과 등 수많은 사례가 있습니다.

어떤 경우에는 기계가 목표를 달성하기 위해 '강화 학습'을 사용합니다. 이 과정에서 AI 에이전트는 보상을 받는 좋은 행동과 처벌을 받는 나쁜 행동을 반복적으로 학습합니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다

인간이 레스토랑을 선택할 때 직면하는 딜레마와 마찬가지로 이러한 에이전트는 더 나은 행동(탐색)을 발견하는 시간과 과거에 높은 보상을 가져온 행동을 취하는 시간(착취)의 균형을 맞추려고 노력합니다.

호기심이 너무 강하면 에이전트의 주의가 산만해져서 유리한 결정을 내리지 못하게 되고, 호기심이 너무 약하면 에이전트가 결코 유리한 결정을 내릴 수 없게 됩니다.

AI 에이전트가 "적절한" 호기심을 갖도록 하기 위해 MIT 컴퓨터 과학 및 AI 연구소(CSAIL)의 연구원들은 AI가 너무 "호기심"이 있고 당면한 문제에 압도당하는 문제를 극복하는 알고리즘을 만들었습니다. 작업 방해 문제.

그들이 개발한 알고리즘은 필요할 때 자동으로 호기심을 증가시키고 에이전트가 환경으로부터 충분한 감독을 받고 무엇을 해야할지 이미 알고 있는 경우 호기심을 감소시킵니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다

논문 링크: https://williamd4112.github.io/pubs/neurips22_eipo.pdf

60개 이상의 비디오 게임에서 테스트한 후 이 알고리즘은 다양한 난이도의 탐색 작업에 성공할 수 있지만 이전 알고리즘은 쉬움 또는 어려움 난이도에서만 개별적으로 해결할 수 있습니다. 이는 AI 에이전트가 의사결정 규칙을 학습하고 인센티브를 극대화하는 데 더 적은 데이터를 사용할 수 있음을 의미합니다.

"탐사-활용 트레이드오프를 잘 이해하면 올바른 결정 규칙을 더 빨리 배울 수 있지만, 그렇지 않은 경우에는 많은 데이터가 필요하므로 생성된 결과가 차선책일 수 있습니다. 의료 솔루션 , 웹 사이트 수익은 감소했으며 로봇은 올바른 일을 수행하는 방법을 배우지 못하고 있습니다.”라고 연구 리더 중 한 명이자 MIT 교수이자 Improbable AI Lab 소장인 Pulkit Agrawal이 말했습니다.

호기심은 고양이를 죽일 뿐만 아니라!

심리학적 관점에서 호기심의 심리적 기반을 설명하는 것은 어려운 것 같습니다. 우리는 아직 이러한 도전 추구 행동의 근본적인 신경학적 원리를 깊이 이해하지 못했습니다.

강화 학습을 통해 이 프로세스는 감정적으로 "가지치기"되어 문제를 가장 기본적인 수준까지 제거하지만 기술적 구현은 상당히 복잡합니다.

기본적으로 에이전트는 감독이 부족하여 다양한 것을 시도할 때만 호기심을 가져야 하고, 감독이 있으면 호기심을 조정하고 호기심을 줄여야 합니다.

테스트 게임 작업의 대부분은 보상을 찾아 환경을 뛰어다니고 특정 목표를 달성하기 위해 긴 작업 목록을 수행하는 작은 에이전트로 구성됩니다. 이는 연구원의 알고리즘에 대한 논리적 테스트베드인 것 같습니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다"Mario Kart" 및 "Montezuma's Revenge"와 같은 게임에 대한 실험에서 연구원들은 위의 게임을 두 가지 범주로 나누었습니다.

에이전트가 더 적은 지침을 받는 드물게 감독되는 환경 "하드" 탐색 게임; 다른 하나는 "쉬운" 탐색 게임인 보다 집중적으로 감독되는 환경입니다.

Mario Kart에서 모든 보상을 제거하면 적이 언제 당신을 죽일지 알 수 없다고 가정해 보겠습니다. 동전을 모으거나 파이프를 뛰어넘어도 보상을 받을 수 없습니다. 에이전트는 마지막에 수행 방법만 알립니다. 이는 감독이 부족한 환경이므로 어려운 작업입니다. 호기심을 자극하는 알고리즘은 이런 종류의 작업에 매우 효과적입니다.

그리고 에이전트가 조밀하게 감독되는 환경, 즉 파이프 점프, 코인 수집, 적을 ​​죽이는 것에 대한 보상이 있는 경우 최고의 성능은 호기심이 전혀 없는 알고리즘입니다. 따라가는 한 과정만 따라가시면 별도의 탐색 없이도 많은 것을 얻으실 수 있습니다.

AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 어렵기도 하고 다 잡기 쉽다호기심을 조장하는 알고리즘을 사용하면 학습 속도가 매우 느려집니다.

호기심 많은 에이전트는 다양한 방법으로 빠르게 달리고, 돌아다니고, 게임 구석구석을 방문할 수도 있기 때문입니다. 이런 것들은 재미있지만 에이전트가 게임에서 성공하고 보상을 받는 데 도움이 되지 않습니다.

앞서 언급했듯이 강화 학습에서 호기심을 자극하고 호기심을 억제하는 알고리즘은 일반적으로 각각 희박 지도(어려움) 및 지도 집중(간단) 작업에 해당하며 혼합될 수 없습니다.

이번 MIT 팀의 새로운 알고리즘은 어떤 환경에서도 항상 좋은 성능을 발휘합니다.

향후 작업에는 수년 동안 심리학자들을 기쁘게 하고 괴롭게 했던 탐구, 즉 호기심의 적절한 척도로 돌아가는 것이 포함될 수 있습니다. 실제로 호기심을 수학적으로 정의하는 올바른 방법을 아는 사람은 아무도 없습니다.

MIT CSAIL 박사과정 학생인 Zhang Weihong은 다음과 같이 말했습니다.

탐색 알고리즘을 개선하여 관심 있는 문제에 맞게 알고리즘을 조정하세요. 어려운 문제를 해결하려면 호기심이 필요하지만 일부 문제에서는 호기심이 성과를 저하시킬 수 있습니다. 우리의 알고리즘은 탐색과 활용을 조정하는 균형 잡힌 부담을 제거합니다.

해결하는 데 일주일이 걸렸던 문제를 새로운 알고리즘을 사용하면 몇 시간 만에 만족스러운 결과를 얻을 수 있습니다.

그는 MIT의 CSAIL ME인 Eric Chen '22와 함께 이 작업에 대한 새로운 논문의 공동 저자입니다.

Carnegie Mellon University의 교사인 Deepak Pathak은 다음과 같이 말했습니다.

“호기심과 같은 본질적인 보상 메커니즘은 에이전트가 유용하고 다양한 행동을 발견하도록 안내하는 기초이지만, 이것이 주어진 작업을 잘 수행하는 기초가 되어서는 안 됩니다. 이는 AI에서 중요한 문제이며, 이 논문은 이러한 접근 방식이 게임에서 실제 로봇 에이전트로 어떻게 확장되는지 보는 것이 흥미로울 것입니다. 심리학과의 저명한 교수입니다. 캘리포니아대학교 버클리캠퍼스 철학과 부교수는 현재 AI와 인지과학의 가장 큰 과제 중 하나는 '탐색과 활용'의 균형을 맞추는 것이고, 후자는 정보 검색에 관한 것이라고 지적했습니다. 보상.

「이 논문은 인상적인 신기술을 사용하여 이 작업을 자동화하고, 세상에 대한 호기심과 보상에 대한 욕구의 균형을 체계적으로 조정할 수 있는 에이전트를 설계하여 AI 에이전트가 다음과 같은 방향으로 나아갈 수 있도록 합니다. 실제 어린이를 다음과 같은 방향으로 만드는 중요한 단계입니다. 최대한 똑똑하다"고 말했다.

참고자료:

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail.mit.edu/news/ensuring-ai-works-right -용량-호기심

위 내용은 AI 호기심은 고양이만 죽이는 것이 아닙니다! MIT의 새로운 강화학습 알고리즘, 이번에는 에이전트가 '어렵기도 하고 다 잡기 쉽다'의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. 크로스 플레이가 있습니까?
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Centos Shutdown 명령 줄 Centos Shutdown 명령 줄 Apr 14, 2025 pm 09:12 PM

CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Centos에서 Gitlab의 백업 방법은 무엇입니까? Centos에서 Gitlab의 백업 방법은 무엇입니까? Apr 14, 2025 pm 05:33 PM

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

Centos HDFS 구성을 확인하는 방법 Centos HDFS 구성을 확인하는 방법 Apr 14, 2025 pm 07:21 PM

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Centos에서 Pytorch에 대한 GPU 지원은 어떻습니까? Apr 14, 2025 pm 06:48 PM

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

Docker 원리에 대한 자세한 설명 Docker 원리에 대한 자세한 설명 Apr 14, 2025 pm 11:57 PM

Docker는 Linux 커널 기능을 사용하여 효율적이고 고립 된 응용 프로그램 실행 환경을 제공합니다. 작동 원리는 다음과 같습니다. 1. 거울은 읽기 전용 템플릿으로 사용되며, 여기에는 응용 프로그램을 실행하는 데 필요한 모든 것을 포함합니다. 2. Union 파일 시스템 (Unionfs)은 여러 파일 시스템을 스택하고 차이점 만 저장하고 공간을 절약하고 속도를 높입니다. 3. 데몬은 거울과 컨테이너를 관리하고 클라이언트는 상호 작용을 위해 사용합니다. 4. 네임 스페이스 및 CGroup은 컨테이너 격리 및 자원 제한을 구현합니다. 5. 다중 네트워크 모드는 컨테이너 상호 연결을 지원합니다. 이러한 핵심 개념을 이해 함으로써만 Docker를 더 잘 활용할 수 있습니다.

Centos 설치 MySQL Centos 설치 MySQL Apr 14, 2025 pm 08:09 PM

Centos에 MySQL을 설치하려면 다음 단계가 필요합니다. 적절한 MySQL Yum 소스 추가. mysql 서버를 설치하려면 yum install mysql-server 명령을 실행하십시오. mysql_secure_installation 명령을 사용하여 루트 사용자 비밀번호 설정과 같은 보안 설정을 작성하십시오. 필요에 따라 MySQL 구성 파일을 사용자 정의하십시오. MySQL 매개 변수를 조정하고 성능을 위해 데이터베이스를 최적화하십시오.

CentOS8은 ssh를 다시 시작합니다 CentOS8은 ssh를 다시 시작합니다 Apr 14, 2025 pm 09:00 PM

SSH 서비스를 다시 시작하라는 명령은 SystemCTL SSHD를 다시 시작합니다. 자세한 단계 : 1. 터미널에 액세스하고 서버에 연결; 2. 명령을 입력하십시오 : SystemCTL SSHD 재시작; 3. 서비스 상태를 확인하십시오 : SystemCTL 상태 SSHD.

Centos에서 Pytorch의 분산 교육을 운영하는 방법 Centos에서 Pytorch의 분산 교육을 운영하는 방법 Apr 14, 2025 pm 06:36 PM

CentOS 시스템에 대한 Pytorch 분산 교육에는 다음 단계가 필요합니다. Pytorch 설치 : 전제는 Python과 PIP가 CentOS 시스템에 설치된다는 것입니다. CUDA 버전에 따라 Pytorch 공식 웹 사이트에서 적절한 설치 명령을 받으십시오. CPU 전용 교육의 경우 다음 명령을 사용할 수 있습니다. PipinStalltorchtorchvisiontorchaudio GPU 지원이 필요한 경우 CUDA 및 CUDNN의 해당 버전이 설치되어 있는지 확인하고 해당 PyTorch 버전을 설치하려면 설치하십시오. 분산 환경 구성 : 분산 교육에는 일반적으로 여러 기계 또는 단일 기계 다중 GPU가 필요합니다. 장소

See all articles