補強学習(RL):エージェントと環境の相互作用に深く潜ります
基本的および高度な補強学習(RL)モデルは、しばしばSF AIに似ている現在の大きな言語モデルを上回ります。 この記事では、RLがエージェントがスーパーマリオの挑戦的なレベルを征服する方法を説明します。
最初に、エージェントにはゲームの知識が不足しています:コントロール、進行力学、障害、および勝利条件。 それは、人間の介入なしに、強化学習アルゴリズムを通してこのすべてを自律的に学習します。
RLの強みは、事前定義されたソリューションや明示的なプログラミングなしで問題を解決することにあり、多くの場合、データ要件が最小限に抑えられます。これにより、さまざまな分野で影響を及ぼします:
自動運転車:- RLエージェントは、リアルタイムのトラフィックと道路規則に基づいて最適な運転戦略を学びます。
ロボット工学:
ロボットRLトレーニングを通じて動的環境で複雑なタスクをマスターします。
-
ゲームai:RLテクニックにより、AIエージェントはGoやStarcraft IIなどのゲームで洗練された戦略を開発できます。
- rlは、計り知れない可能性を秘めた急速に進化する分野です。 将来のアプリケーションは、リソース管理、ヘルスケア、およびパーソナライズされた教育で予想されます。 このチュートリアルでは、RLファンダメンタルズを紹介し、エージェント、環境、アクション、状態、報酬などのコアコンセプトを説明しています。
エージェントと環境:猫の視点
猫のトレーニング、ボブ、家具の代わりにスクラッチポストを使用することを検討してください。ボブは、学習者であり意思決定者である
エージェント
です。 部屋は
環境
であり、課題(家具)と目標(引っ掛かった投稿)を提示します。
rl環境は次のように分類されます
ディスクリート:グリッドベースのゲームのような単純化された部屋、ボブの動きと部屋のバリエーションを制限します。
継続:
現実世界の部屋は、家具の配置とボブの行動のためにほぼ無限の可能性を提供します。
私たちの部屋の例は、- static環境です(家具は固定されたままです)。 a dynamic
環境は、スーパーマリオレベルのように、時間の経過とともに変化し、学習の複雑さを高めます。
- アクションと状態:可能性の定義
状態スペース
可能なすべてのエージェント環境構成を網羅しています。 サイズは、環境タイプに依存します:
有限:離散環境には限られた数の状態があります(例:ボードゲーム)。
Infinite:
アクション空間は、すべての可能なエージェントアクションを表します。 繰り返しますが、サイズは環境に依存します:
-
ディスクリート:限られたアクション(たとえば、上、下、左、右)。
-
連続:より広範なアクションの範囲(たとえば、任意の方向、ジャンプ)。
各アクションは、環境を新しい状態に遷移します。
報酬、タイムステップ、エピソード:進捗状況の測定
報酬エージェントにインセンティブを与えます。 チェスでは、ピースをキャプチャすることはポジティブです。小切手を受信することは負です。 ボブの場合、扱います肯定的な行動に報いる(引っ掻く投稿を使用)、水噴出は否定的な行動(家具を傷つける)を罰する。
時間段階エージェントの学習の旅を測定します。 各ステップにはアクションが含まれ、新しい状態と報酬が得られます。
an
エピソードは、デフォルトの状態から始まり、目標が達成されたときに終了するか、エージェントが失敗したときに終了する一連の時間ステップを含む。
探査対搾取:行為のバランス
エージェントは、
探査(新しいアクションを試す)と
exploation (既知の最良のアクションを使用)のバランスを取る必要があります。 戦略は次のとおりです
epsilon-greedy:確率によるランダム探査(epsilon);それ以外の場合は、最もよく知られているアクションを活用します。
- Boltzmann探査:確率的に、予想される報酬を伴うアクションを支持します。
- 補強学習アルゴリズム:モデルベースとモデルフリー
rlアルゴリズムは、エージェントの意思決定をガイドします。 2つの主要なカテゴリが存在します:
モデルベースのrl
エージェントは、アクションを計画するために環境の内部モデルを構築します。これはサンプル効率ですが、複雑な環境では挑戦的です。 例は、モデルベースとモデルのない学習を組み合わせたDyna-Qです
モデルフリーrl
エージェントは、明示的なモデルなしで経験から直接学習します。これはよりシンプルですが、サンプル効率が低くなります。 例は次のとおりです
Qラーニング:状態行動ペアのQ値(予想される将来の報酬)を学習します
sarsa: q-learningに似ていますが、実際の次のアクションに基づいて値を更新します。
ポリシーグラデーションメソッド:- 条件をアクションにマッピングするポリシーを直接学習します。
ディープQネットワーク(DQN):
Qラーニングと、高次元状態空間の深いニューラルネットワークを組み合わせた。
-
アルゴリズムの選択は、環境の複雑さとリソースの可用性に依存します
Qラーニング:詳細な外観
- Qラーニングは、モデルフリーアルゴリズムの教育エージェントの最適な戦略です。 Qテーブルは、各状態アクションペアのQ値を保存します。 エージェントは、イプシロングレディポリシーに基づいてアクションを選択し、探索と搾取のバランスを取ります。 Q値は、現在のQ値、報酬、および次の状態の最大Q値を組み込んだ式を使用して更新されます。 ガンマ(割引率)やアルファ(学習レート)などのパラメーターは、学習プロセスを制御します。体育館を備えたPythonでの補強学習
Gymnasiumは、RL実験のためのさまざまな環境を提供します。 次のコードスニペットは、ブレイクアウト環境との相互作用ループを示しています:
import gymnasium as gym
env = gym.make("ALE/Breakout-v5", render_mode="rgb_array")
# ... (interaction loop and GIF creation code as in the original article) ...
ログイン後にコピー
このコードは、エージェントのアクションを視覚化するGIFを生成します。 学習アルゴリズムがなければ、アクションはランダムであることに注意してください。
結論
補強学習は、幅広いアプリケーションを備えた強力な手法です。 このチュートリアルは、基本的な概念をカバーし、さらなる調査の出発点を提供しました。 追加のリソースは、継続的な学習のために元の記事にリストされています。
以上が強化学習:Pythonの例を掲載した紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。