目次
モデルフリー強化学習
モデルベースの強化学習
モデルベース VS モデルフリー
複数の学習モード
参考資料:
ホームページ テクノロジー周辺機器 AI 迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展

迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展

May 09, 2023 pm 09:49 PM
ai 強化学習 モデルベースの

強化学習のことになると、多くの研究者のアドレナリンが制御不能に急増します。ゲーム AI システム、現代のロボット、チップ設計システム、その他のアプリケーションにおいて非常に重要な役割を果たします。

強化学習アルゴリズムにはさまざまな種類がありますが、主に「モデルベース」と「モデルフリー」の 2 つのカテゴリに分類されます。

TechTalks との対談の中で、神経科学者であり『知能の誕生』の著者である Daeyel Lee 氏が、人間と動物、人工知能と自然知能における強化学習のさまざまなモデル、および将来の研究の方向性について語ります。

迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展

モデルフリー強化学習

19世紀後半、心理学者エドワード・ソーンダイクによって提案された「効果の法則」がモデルの基礎となりました。無料の強化学習。ソーンダイク氏は、特定の状況でプラスの影響を与える行動は、その状況で再び起こる可能性が高く、マイナスの影響を与える行動は再び起こる可能性が低いと提案しました。

ソーンダイクは、実験でこの「効果の法則」を調査しました。彼は猫を迷路の箱に入れ、猫が箱から逃げるのにかかる時間を測定しました。逃げるために、猫はロープやレバーなどの一連の道具を操作しなければなりません。ソーンダイク氏は、猫がパズル箱と触れ合ううちに、脱出に役立つ行動を学習したことを観察した。時間が経つにつれて、猫はますます速く箱から逃げます。ソーンダイク氏は、猫は自分の行動が与える報酬と罰から学ぶことができると結論づけた。 「効果の法則」は後に行動主義への道を開きました。行動主義は、人間や動物の行動を刺激と反応の観点から説明しようとする心理学の分野です。 「効果の法則」は、モデルフリーの強化学習の基礎でもあります。モデルフリーの強化学習では、エージェントは世界を認識し、報酬を測定しながらアクションを実行します。

モデルフリーの強化学習では、直接的な知識や世界モデルは存在しません。 RL エージェントは、試行錯誤を通じて各アクションの結果を直接経験する必要があります。

モデルベースの強化学習

ソーンダイクの「効果の法則」は 1930 年代まで人気がありました。当時のもう一人の心理学者エドワード・トールマンは、ネズミがどのようにして迷路を素早く移動できるようになったのかを調査する中で、重要な洞察を発見した。トールマンは実験中に、動物は強化なしでも環境について学習できることに気づきました。

たとえば、迷路の中でマウスを放すと、マウスはトンネル内を自由に探索し、徐々に環境の構造を理解します。その後、ラットを同じ環境に戻し、餌を探す、出口を見つけるなどの強化信号を与えると、迷路を探索しなかった動物よりも早くゴールに到達することができます。トールマンはこれを「潜在学習」と呼び、これがモデルベースの強化学習の基礎となります。 「潜在学習」により、動物と人間は自分たちの世界を精神的に表現し、頭の中で仮説的なシナリオをシミュレートし、結果を予測することができます。

迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展

# モデルベースの強化学習の利点は、エージェントが環境内で試行錯誤を行う必要がなくなることです。モデルベースの強化学習は、チェスや囲碁などのボード ゲームをマスターできる人工知能システムの開発に特に成功していることを強調する価値があります。これはおそらく、これらのゲームの環境が決定論的であるためと考えられます。

迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展

モデルベース VS モデルフリー

一般に、モデルベースの強化学習は非常に時間がかかります。致命的な危険が発生する可能性があります。 「計算的には、モデルベースの強化学習ははるかに複雑です。まずモデルを取得し、精神的なシミュレーションを実行する必要があります。次に、神経プロセスの軌道を見つけて、アクションを実行する必要があります。しかし、モデルベースの強化学習は、必ずしもモデルフリー RL よりも複雑であるとは限りません。」 環境が非常に複雑な場合、比較的単純なモデル (すぐに取得できる) でモデル化できれば、シミュレーションははるかに単純になります。そして費用対効果が高い。

複数の学習モード

実際には、モデルベースの強化学習もモデルフリーの強化学習も完璧な解決策ではありません。強化学習システムが複雑な問題を解決しているところを見ると、モデルベースとモデルフリーの両方の強化学習が使用されている可能性が高く、場合によってはさらに多くの形式の学習が使用されている可能性があります。神経科学の研究によると、人間も動物も複数の学習方法があり、脳は常にこれらのモードを常に切り替えていることがわかっています。近年、複数の強化学習モデルを組み合わせた人工知能システムの構築への関心が高まっています。カリフォルニア大学サンディエゴ校の科学者による最近の研究では、モデルフリー強化学習とモデルベース強化学習を組み合わせることで、制御タスクにおいて優れたパフォーマンスを達成できることが示されています。 「AlphaGoのような複雑なアルゴリズムを見ると、モデルフリーRL要素とモデルベースRL要素の両方があります。ボード構成に基づいて状態値を学習します。基本的にはモデルフリーRLですが、ただし、モデルベースの前方探索も実行されます。」

重要な成果にもかかわらず、強化学習の進歩は依然として遅いです。 RL モデルが複雑で予測不可能な環境に直面すると、パフォーマンスが低下し始めます。

リー氏は次のように述べています:「私たちの脳は、多くの異なる状況に対処するために進化した学習アルゴリズムの複雑な世界だと思います。」

これらの学習モード間を常に移動するだけでなく、切り替えを超えて、また、意思決定に積極的に関与していない場合でも、脳は常にそれらを維持し、更新することができます。

心理学者のダニエル・カーネマン氏は、「さまざまな学習モジュールを維持し、それらを同時に更新することで、人工知能システムの効率と精度を向上させることができます。」

また、別の側面を理解する必要もあります。 AI システムに適切な帰納的バイアスを適用して、費用対効果の高い方法で正しいことを確実に学習できるようにします。何十億年にもわたる進化により、人間と動物には、できるだけ少ないデータを使用しながら効果的に学習するために必要な帰納的バイアスが与えられました。帰納的バイアスは、実生活で観察された現象からルールを要約し、モデルに特定の制約を課すものとして理解できます。これはモデル選択の役割を果たすことができます。つまり、実際のルールとより一致するモデルをモデルから選択します。仮説空間。 「私たちが環境から得られる情報はほとんどありません。その情報を使って一般化する必要があります。その理由は、脳には帰納的なバイアスがあり、少数の例から一般化しようとするバイアスがあるためです。それは、 「進化の産物です。」 「ますます多くの神経科学者がこれに興味を持っています。」 しかし、帰納的バイアスは物体認識タスクでは理解しやすいですが、社会的関係の構築などの抽象的な問題ではわかりにくくなります。今後も、知るべきことはたくさんあります~~~

参考資料:

https://thenextweb.com/news/everything-you-need-to-モデルフリーおよびモデルベースの強化学習について知る

以上が迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

高負荷アプリケーションのMySQLパフォーマンスを最適化する方法は? 高負荷アプリケーションのMySQLパフォーマンスを最適化する方法は? Apr 08, 2025 pm 06:03 PM

MySQLデータベースパフォーマンス最適化ガイドリソース集約型アプリケーションでは、MySQLデータベースが重要な役割を果たし、大規模なトランザクションの管理を担当しています。ただし、アプリケーションのスケールが拡大すると、データベースパフォーマンスのボトルネックが制約になることがよくあります。この記事では、一連の効果的なMySQLパフォーマンス最適化戦略を検討して、アプリケーションが高負荷の下で効率的で応答性の高いままであることを保証します。実際のケースを組み合わせて、インデックス作成、クエリ最適化、データベース設計、キャッシュなどの詳細な主要なテクノロジーを説明します。 1.データベースアーキテクチャの設計と最適化されたデータベースアーキテクチャは、MySQLパフォーマンスの最適化の基礎です。いくつかのコア原則は次のとおりです。適切なデータ型を選択し、ニーズを満たす最小のデータ型を選択すると、ストレージスペースを節約するだけでなく、データ処理速度を向上させることもできます。

酸性特性を理解する:信頼できるデータベースの柱 酸性特性を理解する:信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性:トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のア​​カウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

See all articles