미로 속을 걷는 쥐부터 인간을 물리치는 알파고까지, 강화학습의 발전
강화학습에 관해서 많은 연구자들의 아드레날린이 걷잡을 수 없이 치솟습니다! 게임 AI 시스템, 현대 로봇, 칩 설계 시스템 및 기타 애플리케이션에서 매우 중요한 역할을 합니다.
강화 학습 알고리즘에는 다양한 유형이 있지만 주로 "모델 기반"과 "모델 없는" 두 가지 범주로 나뉩니다.
신경과학자이자 '지능의 탄생' 저자인 이대열 박사는 TechTalks와의 대화에서 인간과 동물, 인공지능과 자연지능의 다양한 강화학습 모델과 향후 연구 방향에 대해 논의했습니다.
모델 프리 강화 학습
19세기 후반 심리학자 에드워드 손다이크가 제안한 '효과 법칙'이 모델 프리 강화 학습의 기초가 되었습니다. Thorndike는 특정 상황에서 긍정적인 영향을 미치는 행동은 해당 상황에서 다시 발생할 가능성이 더 큰 반면, 부정적인 영향을 미치는 행동은 다시 발생할 가능성이 낮다고 제안했습니다.
Thorndike는 실험에서 이 "효과의 법칙"을 탐구했습니다. 그는 고양이를 미로 상자에 넣고 고양이가 상자에서 탈출하는 데 걸리는 시간을 측정했습니다. 탈출하려면 고양이가 밧줄이나 레버와 같은 일련의 도구를 작동해야 합니다. Thorndike는 고양이가 퍼즐 상자와 상호작용하면서 탈출에 도움이 되는 행동을 학습한다는 것을 관찰했습니다. 시간이 지날수록 고양이는 점점 더 빠르게 상자를 탈출합니다. Thorndike는 고양이가 자신의 행동이 제공하는 보상과 처벌로부터 배울 수 있다고 결론지었습니다. "효과의 법칙"은 나중에 행동주의의 길을 열었습니다. 행동주의(Behaviorism)는 인간과 동물의 행동을 자극과 반응의 관점에서 설명하려는 심리학의 한 분야이다. "효과의 법칙"은 모델 없는 강화 학습의 기초이기도 합니다. 모델 없는 강화 학습에서는 에이전트가 세상을 인식한 다음 보상을 측정하면서 조치를 취합니다.
모델 없는 강화 학습에는 직접적인 지식이나 세계 모델이 없습니다. RL 에이전트는 시행착오를 통해 각 작업의 결과를 직접 경험해야 합니다.
모델 기반 강화 학습
Thorndike의 "효과 법칙"은 1930년대까지 인기를 끌었습니다. 당시 또 다른 심리학자인 에드워드 톨먼(Edward Tolman)은 쥐가 미로를 탐색하는 방법을 어떻게 빨리 배웠는지 탐구하면서 중요한 통찰력을 발견했습니다. 실험 중에 Tolman은 동물이 강화 없이도 환경에 대해 배울 수 있다는 것을 깨달았습니다.
예를 들어, 쥐를 미로에 풀어놓으면 자유롭게 터널을 탐험하며 점차적으로 환경의 구조를 이해하게 됩니다. 그런 다음 쥐를 동일한 환경에 다시 도입하고 먹이를 찾거나 출구를 찾는 등 강화 신호를 제공하면 미로를 탐험하지 않은 동물보다 더 빨리 목표에 도달할 수 있습니다. Tolman은 이를 "잠재 학습"이라고 부르는데, 이는 모델 기반 강화 학습의 기초가 됩니다. "잠재 학습"을 통해 동물과 인간은 자신의 세계에 대한 정신적 표현을 형성하고, 마음 속에서 가상 시나리오를 시뮬레이션하고, 결과를 예측할 수 있습니다.
모델 기반 강화 학습의 장점은 에이전트가 환경에서 시행착오를 수행할 필요가 없다는 것입니다. 모델 기반 강화 학습이 체스나 바둑과 같은 보드 게임을 마스터할 수 있는 인공 지능 시스템을 개발하는 데 특히 성공적이라는 점을 강조할 가치가 있습니다. 아마도 이러한 게임의 환경이 결정론적이기 때문일 것입니다.
모델 기반 VS 모델 프리
일반적으로 모델 기반 강화 학습은 시간이 많이 걸리며 시간에 매우 민감한 경우 치명적일 수 있습니다. Lee는 "계산적으로 모델 기반 강화 학습은 훨씬 더 복잡합니다. 먼저 모델을 획득하고 정신적 시뮬레이션을 수행한 다음 신경 프로세스의 궤적을 찾아 조치를 취해야 합니다. 그러나 모델 기반 강화 학습이 반드시 모델이 없는 RL보다 더 복잡한 것은 아닙니다. "환경이 매우 복잡할 때 (빠르게 얻을 수 있는) 상대적으로 간단한 모델로 모델링할 수 있다면 시뮬레이션이 훨씬 더 간단해질 것입니다. 그리고 비용 효율적입니다.
다양한 학습 모드
사실 모델 기반 강화 학습이나 모델 없는 강화 학습 모두 완벽한 솔루션은 아닙니다. 복잡한 문제를 해결하는 강화 학습 시스템을 볼 때마다 모델 기반 강화 학습과 모델 없는 강화 학습을 모두 사용하고 더 많은 형태의 학습을 사용할 가능성이 높습니다. 신경 과학 연구에 따르면 인간과 동물 모두 다양한 학습 방법을 가지고 있으며 뇌는 주어진 순간에 이러한 모드 사이를 지속적으로 전환하고 있습니다. 최근에는 여러 강화학습 모델을 결합한 인공지능 시스템을 만드는 데 대한 관심이 높아지고 있습니다. UC San Diego 과학자들의 최근 연구에 따르면 모델 없는 강화 학습과 모델 기반 강화 학습을 결합하면 제어 작업에서 탁월한 성능을 얻을 수 있는 것으로 나타났습니다. 이 대표는 “알파고 같은 복잡한 알고리즘을 보면 모델이 없는 RL 요소와 모델 기반 RL 요소가 모두 있다”며 “보드 구성을 기반으로 상태값을 학습한다. 기본적으로 모델이 없는 RL이고, 하지만 모델 기반 전진 검색도 수행됩니다.
괄목할 만한 성과에도 불구하고 강화 학습의 진행은 느렸습니다. RL 모델이 복잡하고 예측할 수 없는 환경에 직면하면 성능이 저하되기 시작합니다.
Lee는 다음과 같이 말했습니다. "우리 뇌는 다양한 상황을 처리하기 위해 진화한 복잡한 학습 알고리즘의 세계라고 생각합니다."
뇌는 이러한 학습 모드를 지속적으로 전환하는 것 외에도 이를 유지하고 업데이트합니다. 의사결정에 적극적으로 참여하지 않는 경우에도 마찬가지입니다.
심리학자 Daniel Kahneman은 "다양한 학습 모듈을 유지하고 동시에 업데이트하면 인공 지능 시스템의 효율성과 정확성을 향상하는 데 도움이 될 수 있습니다."
또한 AI 시스템에서 작동하는 방법을 이해해야 합니다. 올바른 귀납적 편향 적용 비용 효과적인 방법으로 올바른 내용을 배울 수 있도록 합니다. 수십억 년의 진화를 통해 인간과 동물은 가능한 한 적은 데이터를 사용하면서 효과적으로 학습하는 데 필요한 귀납적 편견을 갖게 되었습니다. 귀납적 편향은 실제 생활에서 관찰되는 현상으로부터 규칙을 요약한 후 모델 선택의 역할을 할 수 있는 특정 제약 조건을 모델에 두는 것으로 이해될 수 있습니다. 가설 공간 . "우리는 환경으로부터 아주 적은 정보를 얻습니다. 그 정보를 사용하여 일반화해야 합니다. 그 이유는 뇌가 귀납적 편견을 갖고 있고, 작은 사례 세트에서 일반화하려는 편견이 있기 때문입니다." 진화의 산물입니다.", 점점 더 많은 신경과학자들이 이에 관심을 갖고 있습니다. 그러나 귀납적 편향은 객체 인식 작업에서는 이해하기 쉽지만 사회적 관계 구축과 같은 추상적인 문제에서는 모호해집니다. 앞으로도 우리가 알아야 할 게 많아요~~~
참고:
https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and -모델 기반 강화 학습
위 내용은 미로 속을 걷는 쥐부터 인간을 물리치는 알파고까지, 강화학습의 발전의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Worldcoin (WLD)은 Cryptocurrency 시장에서 고유 한 생체 인정 및 개인 정보 보호 메커니즘으로 눈에 띄고 많은 투자자의 관심을 끌고 있습니다. WLD는 혁신적인 기술, 특히 OpenAi 인공 지능 기술과 함께 Altcoins에서 뛰어난 성과를 거두었습니다. 그러나 향후 몇 년 안에 디지털 자산은 어떻게 행동 할 것인가? WLD의 미래 가격을 함께 예측합시다. 2025 WLD 가격 예측은 2025 년 WLD에서 상당한 성장을 달성 할 것으로 예상됩니다. 시장 분석에 따르면 평균 WLD 가격은 최대 $ 1.36로 $ 1.31에 도달 할 수 있습니다. 그러나 곰 시장에서 가격은 약 $ 0.55로 떨어질 수 있습니다. 이러한 성장 기대는 주로 WorldCoin2에 기인합니다.

크로스 체인 거래를 지원하는 교환 : 1. Binance, 2. Uniswap, 3. Sushiswap, 4. Curve Finance, 5. Thorchain, 6. 1inch Exchange, 7. DLN 거래,이 플랫폼은 다양한 기술을 통해 다중 체인 자산 거래를 지원합니다.

cryptocurrency 교환 선택에 대한 제안 : 1. 유동성 요구 사항의 경우 우선 순위는 순서 깊이와 강한 변동성 저항으로 인해 Binance, Gate.io 또는 Okx입니다. 2. 규정 준수 및 보안, 코인베이스, 크라켄 및 쌍둥이 자리는 엄격한 규제 승인을 받았습니다. 3. Kucoin의 소프트 스테이 킹 및 Bybit의 파생 설계 혁신적인 기능은 고급 사용자에게 적합합니다.

cryptocurrency 시장의 급락으로 인해 투자자들 사이에 공황이 발생했으며 Dogecoin (Doge)은 가장 어려운 지역 중 하나가되었습니다. 가격은 급격히 하락했으며 분산 금융 (DEFI) (TVL)의 총 가치 잠금 장치도 크게 감소했습니다. "Black Monday"의 판매 물결은 cryptocurrency 시장을 휩쓸었고 Dogecoin은 처음으로 타격을 받았습니다. DefitVl은 2023 년 수준으로 떨어졌고 지난 달 통화 가격은 23.78% 하락했습니다. Dogecoin의 Defitvl은 주로 SOSO 가치 지수의 26.37% 감소로 인해 272 만 달러로 떨어졌습니다. 지루한 Dao 및 Thorchain과 같은 다른 주요 Defi 플랫폼도 TVL도 각각 24.04% 및 20으로 떨어졌습니다.

Aavenomics는 AAVE 프로토콜 토큰을 수정하고 Aavedao의 쿼럼을 구현 한 Token Repos를 소개하는 제안입니다. AAVE 프로젝트 체인 (ACI)의 설립자 인 Marc Zeller는 X에서 이것을 발표하여 계약의 새로운 시대를 표시한다고 지적했습니다. AAVE 체인 이니셔티브 (ACI)의 설립자 인 Marc Zeller는 AAVENOMICS 제안서에 AAVE 프로토콜 토큰 수정 및 토큰 리포지션 도입이 포함되어 있다고 X에서 AAVEDAO에 대한 쿼럼을 달성했다고 발표했습니다. Zeller에 따르면, 이것은 계약의 새로운 시대를 나타냅니다. Aavedao 회원국은 수요일에 주당 100 인 제안을지지하기 위해 압도적으로 투표했습니다.

가상 통화 가격 상승의 요인은 다음과 같습니다. 1. 시장 수요 증가, 2. 공급 감소, 3. 긍정적 인 뉴스, 4. 낙관적 시장 감정, 5. 거시 경제 환경; 감소 요인에는 다음이 포함됩니다. 1. 시장 수요 감소, 2. 공급 증가, 3. 부정적인 뉴스의 파업, 4. 비관적 시장 감정, 5. 거시 경제 환경.

암호 화폐의 번화 한 세계에서는 새로운 기회가 항상 나타납니다. 현재 Kerneldao (Kernel) 에어 드롭 활동은 많은 관심을 끌고 많은 투자자들의 관심을 끌고 있습니다. 그렇다면이 프로젝트의 기원은 무엇입니까? BNB 보유자는 어떤 이점을 얻을 수 있습니까? 걱정하지 마십시오. 다음은 당신을 위해 하나씩 공개 할 것입니다.

2025 년에 레버리지 거래, 보안 및 사용자 경험에서 뛰어난 성능을 보이는 플랫폼은 다음과 같습니다. 1. OKX, 고주파 거래자에게 적합하여 최대 100 배의 레버리지를 제공합니다. 2. Binance, 전 세계의 다중 통화 거래자에게 적합하며 125 배 높은 레버리지를 제공합니다. 3. Gate.io, 전문 파생 상품 플레이어에게 적합하며 100 배의 레버리지를 제공합니다. 4. 초보자 및 소셜 트레이더에게 적합한 Bitget, 최대 100 배의 레버리지를 제공합니다. 5. 크라켄은 꾸준한 투자자에게 적합하며 5 배의 레버리지를 제공합니다. 6. Bybit, Altcoin Explorers에 적합하며 20 배의 레버리지를 제공합니다. 7. 저비용 거래자에게 적합한 Kucoin, 10 배의 레버리지를 제공합니다. 8. 비트 피 넥스, 시니어 플레이에 적합합니다
