迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展
強化学習のことになると、多くの研究者のアドレナリンが制御不能に急増します。ゲーム AI システム、現代のロボット、チップ設計システム、その他のアプリケーションにおいて非常に重要な役割を果たします。
強化学習アルゴリズムにはさまざまな種類がありますが、主に「モデルベース」と「モデルフリー」の 2 つのカテゴリに分類されます。
TechTalks との対談の中で、神経科学者であり『知能の誕生』の著者である Daeyel Lee 氏が、人間と動物、人工知能と自然知能における強化学習のさまざまなモデル、および将来の研究の方向性について語ります。
モデルフリー強化学習
19世紀後半、心理学者エドワード・ソーンダイクによって提案された「効果の法則」がモデルの基礎となりました。無料の強化学習。ソーンダイク氏は、特定の状況でプラスの影響を与える行動は、その状況で再び起こる可能性が高く、マイナスの影響を与える行動は再び起こる可能性が低いと提案しました。
ソーンダイクは、実験でこの「効果の法則」を調査しました。彼は猫を迷路の箱に入れ、猫が箱から逃げるのにかかる時間を測定しました。逃げるために、猫はロープやレバーなどの一連の道具を操作しなければなりません。ソーンダイク氏は、猫がパズル箱と触れ合ううちに、脱出に役立つ行動を学習したことを観察した。時間が経つにつれて、猫はますます速く箱から逃げます。ソーンダイク氏は、猫は自分の行動が与える報酬と罰から学ぶことができると結論づけた。 「効果の法則」は後に行動主義への道を開きました。行動主義は、人間や動物の行動を刺激と反応の観点から説明しようとする心理学の分野です。 「効果の法則」は、モデルフリーの強化学習の基礎でもあります。モデルフリーの強化学習では、エージェントは世界を認識し、報酬を測定しながらアクションを実行します。
モデルフリーの強化学習では、直接的な知識や世界モデルは存在しません。 RL エージェントは、試行錯誤を通じて各アクションの結果を直接経験する必要があります。
モデルベースの強化学習
ソーンダイクの「効果の法則」は 1930 年代まで人気がありました。当時のもう一人の心理学者エドワード・トールマンは、ネズミがどのようにして迷路を素早く移動できるようになったのかを調査する中で、重要な洞察を発見した。トールマンは実験中に、動物は強化なしでも環境について学習できることに気づきました。
たとえば、迷路の中でマウスを放すと、マウスはトンネル内を自由に探索し、徐々に環境の構造を理解します。その後、ラットを同じ環境に戻し、餌を探す、出口を見つけるなどの強化信号を与えると、迷路を探索しなかった動物よりも早くゴールに到達することができます。トールマンはこれを「潜在学習」と呼び、これがモデルベースの強化学習の基礎となります。 「潜在学習」により、動物と人間は自分たちの世界を精神的に表現し、頭の中で仮説的なシナリオをシミュレートし、結果を予測することができます。
# モデルベースの強化学習の利点は、エージェントが環境内で試行錯誤を行う必要がなくなることです。モデルベースの強化学習は、チェスや囲碁などのボード ゲームをマスターできる人工知能システムの開発に特に成功していることを強調する価値があります。これはおそらく、これらのゲームの環境が決定論的であるためと考えられます。
モデルベース VS モデルフリー
一般に、モデルベースの強化学習は非常に時間がかかります。致命的な危険が発生する可能性があります。 「計算的には、モデルベースの強化学習ははるかに複雑です。まずモデルを取得し、精神的なシミュレーションを実行する必要があります。次に、神経プロセスの軌道を見つけて、アクションを実行する必要があります。しかし、モデルベースの強化学習は、必ずしもモデルフリー RL よりも複雑であるとは限りません。」 環境が非常に複雑な場合、比較的単純なモデル (すぐに取得できる) でモデル化できれば、シミュレーションははるかに単純になります。そして費用対効果が高い。
複数の学習モード
実際には、モデルベースの強化学習もモデルフリーの強化学習も完璧な解決策ではありません。強化学習システムが複雑な問題を解決しているところを見ると、モデルベースとモデルフリーの両方の強化学習が使用されている可能性が高く、場合によってはさらに多くの形式の学習が使用されている可能性があります。神経科学の研究によると、人間も動物も複数の学習方法があり、脳は常にこれらのモードを常に切り替えていることがわかっています。近年、複数の強化学習モデルを組み合わせた人工知能システムの構築への関心が高まっています。カリフォルニア大学サンディエゴ校の科学者による最近の研究では、モデルフリー強化学習とモデルベース強化学習を組み合わせることで、制御タスクにおいて優れたパフォーマンスを達成できることが示されています。 「AlphaGoのような複雑なアルゴリズムを見ると、モデルフリーRL要素とモデルベースRL要素の両方があります。ボード構成に基づいて状態値を学習します。基本的にはモデルフリーRLですが、ただし、モデルベースの前方探索も実行されます。」
重要な成果にもかかわらず、強化学習の進歩は依然として遅いです。 RL モデルが複雑で予測不可能な環境に直面すると、パフォーマンスが低下し始めます。
リー氏は次のように述べています:「私たちの脳は、多くの異なる状況に対処するために進化した学習アルゴリズムの複雑な世界だと思います。」
これらの学習モード間を常に移動するだけでなく、切り替えを超えて、また、意思決定に積極的に関与していない場合でも、脳は常にそれらを維持し、更新することができます。
心理学者のダニエル・カーネマン氏は、「さまざまな学習モジュールを維持し、それらを同時に更新することで、人工知能システムの効率と精度を向上させることができます。」
また、別の側面を理解する必要もあります。 AI システムに適切な帰納的バイアスを適用して、費用対効果の高い方法で正しいことを確実に学習できるようにします。何十億年にもわたる進化により、人間と動物には、できるだけ少ないデータを使用しながら効果的に学習するために必要な帰納的バイアスが与えられました。帰納的バイアスは、実生活で観察された現象からルールを要約し、モデルに特定の制約を課すものとして理解できます。これはモデル選択の役割を果たすことができます。つまり、実際のルールとより一致するモデルをモデルから選択します。仮説空間。 「私たちが環境から得られる情報はほとんどありません。その情報を使って一般化する必要があります。その理由は、脳には帰納的なバイアスがあり、少数の例から一般化しようとするバイアスがあるためです。それは、 「進化の産物です。」 「ますます多くの神経科学者がこれに興味を持っています。」 しかし、帰納的バイアスは物体認識タスクでは理解しやすいですが、社会的関係の構築などの抽象的な問題ではわかりにくくなります。今後も、知るべきことはたくさんあります~~~
参考資料:
https://thenextweb.com/news/everything-you-need-to-モデルフリーおよびモデルベースの強化学習について知る
以上が迷路を歩くネズミから人間を倒すAlphaGoまで、強化学習の発展の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

ブートストラップリストのサイズは、リスト自体ではなく、リストを含むコンテナのサイズに依存します。 BootstrapのグリッドシステムまたはFlexBoxを使用すると、コンテナのサイズを制御することで、リスト項目を間接的に変更します。

ブートストラップのネストされたリストでは、スタイルを制御するためにブートストラップのグリッドシステムを使用する必要があります。まず、外層< ul>を使用します。および< li>リストを作成するには、内側のレイヤーリストを< div class =" row>に巻き付けます。 and< div class =" col-md-6">内側のレイヤーリストに、内側の層リストが行の幅の半分を占めることを指定します。このように、内側のリストは正しいものを持つことができます

アイコンをブートストラップリストに追加する方法:アイコンライブラリ(Font Awesomeなど)が提供するクラス名を使用して、アイコンをリストアイテム< li>に直接詰めます。 Bootstrapクラスを使用して、アイコンとテキストを調整します(たとえば、d-flex、Justify-content-wether、align-Items-center)。ブートストラップタグコンポーネント(バッジ)を使用して、数字またはステータスを表示します。アイコンの位置(Flex-Direction:Row-Reverse;)を調整し、スタイル(CSSスタイル)を制御します。一般的なエラー:アイコンは表示されません(違います

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

Bootstrapのメッシュシステムは、コンテナ(コンテナ)、行(行)、およびcol(列)の3つのメインクラスで構成されるレスポンシブレイアウトを迅速に構築するためのルールです。デフォルトでは、12列のグリッドが提供され、各列の幅はCol-MD-などの補助クラスを通じて調整でき、それにより、さまざまな画面サイズのレイアウト最適化を実現できます。オフセットクラスとネストされたメッシュを使用することにより、レイアウトの柔軟性を拡張できます。グリッドシステムを使用する場合は、各要素が正しいネスト構造を持っていることを確認し、パフォーマンスの最適化を検討してページの読み込み速度を改善します。詳細な理解と実践によってのみ、ブートストラップグリッドシステムを習熟させることができます。

Bootstrap 5リストスタイルの変更は、主に詳細の最適化とセマンティック改善が原因です。これには、以下を含みます。リストスタイルはセマンティクスを強調し、アクセシビリティと保守性を向上させます。

Bootstrap自体は、直接的な垂直リスト機能を提供せず、メカニズムを使用して巧妙に実装する必要があります。Flexbox:「D-Flex Flex-Column」クラスをリストの親コンテナに追加して、リストアイテムを垂直に配置します。ラスターシステムと組み合わせる:複雑なコンテンツを含むリストアイテムの列幅を設定し、レイアウトをより細かく制御します。ブートストラップのラスターコア「行」および「col」クラスを使用して、フローティングまたはポジショニング方法の使用を避けるように注意してください。

質問:エクスポートデフォルトを通じてエクスポートされるVUEコンポーネントを登録する方法は?回答:3つの登録方法があります。グローバル登録:vue.component()メソッドを使用して、グローバルコンポーネントとして登録します。ローカル登録:現在のコンポーネントとそのサブコンポーネントでのみ利用可能なコンポーネントオプションに登録します。動的登録:vue.component()メソッドを使用して、コンポーネントが読み込まれた後に登録します。
