初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う-AI-php.cn

背景

モチベーション

難易度

方法

ホームページ

テクノロジー周辺機器

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 am 11:07 AM

ai 強化学習

この記事「履歴ベースの強化学習のための高速反事実推論」では、因果推論の計算複雑さをオンライン強化学習と組み合わせられるレベルまで大幅に軽減する高速因果推論アルゴリズムを提案します。

この記事の理論的貢献は主に 2 つのポイントです:

1. 時間平均因果効果の概念を提案しました。

2. 有名なバックドア基準を単変量介入効果推定から多変量介入効果推定に拡張し、ステップバックドア基準と呼びます。

背景

部分観察可能な強化学習と因果推論に関する基本的な知識が必要です。ここではあまり多くは紹介しませんが、いくつかのポータルを紹介します:

部分的に観察可能な強化学習:

POMDP の説明 https:/ / www.zhihu.com/zvideo/1326278888684187648

因果推論:

ディープニューラルネットワークにおける因果推論 https://zhuanlan.zhihu .com/p/425331915

モチベーション

履歴情報からの特徴の抽出/エンコードは、部分的に観察可能な強化学習を解決するための基本的な手段です。主流の手法は、シーケンスツーシーケンス (seq2seq) モデルを使用して履歴をエンコードすることであり、たとえば、この分野で人気のある LSTM/GRU/NTM/Transformer 強化学習手法がこれに分類されます。このタイプの方法に共通するのは、履歴が履歴情報と学習シグナル (環境報酬) の間の相関関係に基づいてエンコードされることです。つまり、ある履歴情報の相関関係が大きいほど、それに割り当てられる重みが高くなります。。

ただし、これらの方法

では、サンプリングによって生じる交絡相関を排除することはできません。以下の図に示すように、ドアを開けるために鍵を拾う例を示します。

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

ここでは、エージェントがドアを開けることができるかどうかを示します。履歴内の他の状態には依存せず、キーが過去に取得されたかどうかのみに依存します。ただし、エージェントのサンプリング戦略にいくつかのパスに対する優先順位がある場合、これらの優先パス上の状態間の相関が高くなります。たとえば、エージェントが鍵を取得した後、ドアを開けるために下の経路に行くのではなく、上の経路を選択してドアを開ける傾向があるため、ドアを開ける問題とテレビとの相関性が高くなります。このタイプの非因果的だが関連性の高い状態には、seq2seq によって比較的高い重みが与えられ、エンコードされた履歴情報が非常に冗長になります。この例では、テレビとドアの開口部の相関関係を推定すると、鍵の存在により、両者の間に交絡的な高い相関関係が見られます。テレビのドアが開いたときの本当の影響を推定するには、

この交絡的な相関関係を除去する必要があります。

この交絡的な相関関係は、因果推論における計算計算によって取り除くことができます [1]:

分離潜在的に混乱を招く バックドア変数キーとボール、したがって、バックドア変数 (キー/ボール) と TV の間の統計的相関を遮断し、バックドア変数 (キー/ ball) Ball)Integrate (図 1 の右図)、実際の効果 p(Open|do( ))=0.5 が得られます。因果関係のある歴史的状態は比較的希薄であるため、交絡相関を除去すると、歴史的状態の規模を大幅に縮小できます。したがって、因果推論を使用して履歴サンプルの交絡相関を除去し、次に seq2seq を使用して履歴をエンコードして、よりコンパクトな履歴表現を取得したいと考えています。

(この記事の動機)

[1] 注: ここで考慮されているのは、人気のある科学リンク https:/ を使用してバックドアを使用して調整された計算です。 /blog.csdn .net/qq_31063727/article/details/118672598

難易度

歴史的シーケンスにおける因果推論の実行は、一般的な因果推論の問題とは異なります。履歴シーケンスの 変数は、時間次元と空間次元 の両方を持ちます。つまり、観測時間の組み合わせ初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うです。ここで、o は観測値、t はタイムスタンプです (対照的に、 MDP 非常に友好的で、マルコフ状態には空間次元しかありません）。 2 つの次元の重複により、履歴観測のスケールが非常に大きくなります。初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うは各タイムスタンプでの観測値の数を表すために使用され、T は全長を表すために使用されます。値には種類があります (正規形式の O() は複雑さの記号です)。 [2]

以前の因果推論手法は、単変量介入検出に基づいており、一度に 1 つの変数しか実行できませんでした。大規模な歴史的状態に対して因果推論を実行すると、非常に高い時間計算量が発生し、オンライン RL アルゴリズムと組み合わせることが困難になります。

#[2] 注: 単変量介入の因果効果の正式な定義は次のとおりです

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

# #上の図に示すように、履歴

を考慮して、転送された変数に対するの因果関係を推定する必要があることを示します。では、次の 2 つのステップを実行します。 1) 履歴状態に介入してを実行し、2) 以前の履歴状態を使用しますはバックドア変数、は応答変数です。次の積分を計算して、必要な因果効果を取得します。

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

単一変数介入では検出とオンライン RL を組み合わせるのは難しいため、多変量介入検出方法を開発する必要があります。

アイデア

この記事の核となる観察 (仮説) は、

因果関係の状態は空間次元では疎であるということです。この観察は自然かつ一般的なものです。たとえば、鍵を使ってドアを開けると、その過程で多くの状態が観察されますが、鍵の観察値によってドアを開けることができるかどうかが決まります。この観察値はスパースを説明します。すべての観測値に対する割合。この疎性を利用して、多変数介入を通じて因果関係のない多数の歴史的状態を一度にフィルタリングすることができます。しかし、因果関係は時間次元では希薄ではありません。ドアを開けるために鍵が使用される場合も同様です。鍵はほとんどの場合、エージェントによって監視されます。時間次元における因果効果の密度により、多変量介入を行うことができなくなります。因果効果なしに多数の歴史的状態を一度に除去することは不可能です。上記の 2 つの観察に基づいて、私たちの中心的なアイデアは、

最初に空間次元で推論を行い、次に時間次元で推論を行うことです。

空間次元の疎性を利用して、介入の数を大幅に削減します。空間因果効果を個別に推定するために、最初に時間平均因果効果を取得することを提案します。これは、複数の歴史的状態の因果効果を時間の経過とともに平均することを意味します(具体的な定義については原文を参照)。

この考えに基づいて、私たちは問題に焦点を当てます。解決すべき中心的な問題は、どのように計算するかです。複数の 異なるタイムステップ 同じ値を持つ変数に介入する方法です。 ( 初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うの 共同因果効果 に注意してください)。これは、バックドア基準は、複数の履歴変数の共同介入には適用されないためです。以下の図に示すように、二重変数初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うとの共同介入を検討してください。では、の後のタイムステップにおけるバックドア変数の一部にが含まれており、それらの間に共通のバックドア変数が存在しないことがわかります。二つ。

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

方法

バックドア基準を改良し、多変量共同介入効果の推定値を推定するのに適した基準を提案します。任意の 2 つの介入変数初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うおよび (i

ステップバックドア調整式

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

##この基準は、変数間の他の変数を分離します。 2 つの隣接するタイムステップの値。これらはステップバックドア変数と呼ばれます。この基準を満たす因果関係図では、介在する 2 つの変数の結合因果効果を推定できます。これには 2 つのステップが含まれます: ステップ 1. タイムステップで i より小さい変数をバックドア変数として使用して、do 初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う因果効果 を推定します; ステップ 2. 決定された を取得します。バックドア変数と指定されたが条件として使用され、との間の変数は次のようになります。初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うに関する新しいバックドア変数 (つまり、およびに関するステップバックドア変数) は、を行うと推定されます。の条件付き因果効果。したがって、共同因果効果は、これら 2 つの部分の積分になります。以下の図に示すように、ステップバイステップのバックドア基準では、通常のバックドア基準の 2 つのステップが使用されます。

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

上記の式では、さらに多くのステップが使用されます。一般変数インジケータ X 。

3 つ以上の変数の場合、ステッピングバックドア基準を継続的に使用することで、2 つのタイムステップごとに隣接する介在変数間の変数がステッピングバックドア変数とみなされ、継続的に計算されます。上の式から、多変数介入の共同因果効果初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うは次のように得られます。

##定理 1. 異なる変数を持つ一連の介入変数が与えられたとします。タイムスタンプ、時間的に隣接する 2 つの変数すべてがステップバックドア調整式を満たす場合、全体の因果効果は

# で推定できます。

部分観測可能な強化学習問題に特有の、上の式の x を観測値 o に置き換えると、次のような因果効果の計算式が得られます:

定理 2。初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うとが与えられると、Do(o) の因果効果は

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

## によって推定できます。

この時点で、論文は空間因果効果 (つまり、時間平均因果効果) を計算するための式を示しています。この方法により、介入の数が O( 初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う ) から O( )。次のステップは、空間的因果効果の希薄性 (この章の冒頭で述べた) を利用して、介入の数をさらに指数関数的に減らすことです。 1 つの観測値に対する介入を観測部分空間に対する介入に置き換えます。これは、スパース性を利用して計算を高速化する一般的なアイデアです (元の記事を参照)。この記事では、ツリーベースの履歴反事実推論 (T-HCI) と呼ばれる高速反事実推論アルゴリズムが開発されていますが、ここでは詳しく説明しません (詳細は原文を参照してください)。実際、多くの歴史的因果推論アルゴリズムはステッピングバックドア基準に基づいて開発でき、T-HCI はそのうちの 1 つにすぎません。最終結果は命題 3 (粗いから細かい CI) です。初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うの場合、粗いから細かい CI の介入数は # です。

#アルゴリズムの構造図は次のとおりです。

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

アルゴリズムには 2 つの要素が含まれています。ループ、1 つは T-HCI ループ、もう 1 つはポリシー学習ループです。この 2 つは交換されます。ポリシー学習ループでは、エージェントがサンプリングされて特定のラウンド数を学習し、サンプルがリプレイプール; T-HCI ループでは、保存されたサンプルが使用されます上記の因果推論プロセスを実行します。

限界: 空間次元における因果推論は、すでに歴史的スケールを十分に圧縮しています。時間次元での因果推論は歴史スケールをさらに圧縮できますが、計算の複雑さのバランスをとる必要があることを考慮して、この記事では時間次元での相関推論を維持します (空間的因果効果のある歴史的状態に対して LSTM をエンドツーエンドで使用)。因果推論は使用しません。

検証

以前の主張に応えて 3 つの点を実験的に検証しました: 1) T-HCI は RL 法のサンプル効率を向上させることができますか? 2) 計算オーバーヘッドはありますか? 3) T-HCI は因果効果を伴う観測をマイニングできますか? 詳細については論文の実験の章を参照してくださいので、ここではスペースをとりません。もちろん、興味のある友達は私にプライベートメッセージ/コメントを送ってもらうこともできます。

#将来の拡張に向けて考えられる方向性初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

##議論を始めるための 2 つのポイント:

#1. HCI は強化学習の種類に限定されません。この記事ではオンライン RL について研究していますが、HCI はオフライン RL やモデルベース RL などにも当然拡張でき、HCI を模倣学習に適用することも検討できます;

2. HCI は特別なハードアテンションメソッドとみなすことができます。因果効果のあるシーケンスポイントは 1 のアテンションウェイトを受け取り、それ以外の場合は 0 のアテンションウェイトを受け取ります。この観点から、いくつかの配列予測問題も HCI を使用して処理しようとする可能性があります。

以上が初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行うの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7439

CakePHP チュートリアル

1369

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

ブートストラップリストのサイズを変更する方法は？ Apr 07, 2025 am 10:45 AM

ブートストラップリストのサイズは、リスト自体ではなく、リストを含むコンテナのサイズに依存します。 BootstrapのグリッドシステムまたはFlexBoxを使用すると、コンテナのサイズを制御することで、リスト項目を間接的に変更します。

ブートストラップリストのネストを実装する方法は？ Apr 07, 2025 am 10:27 AM

ブートストラップのネストされたリストでは、スタイルを制御するためにブートストラップのグリッドシステムを使用する必要があります。まず、外層＆lt; ul＆gt;を使用します。および＆lt; li＆gt;リストを作成するには、内側のレイヤーリストを＆lt; div class =＆quot; row＆gt;に巻き付けます。 and＆lt; div class =＆quot; col-md-6＆quot;＆gt;内側のレイヤーリストに、内側の層リストが行の幅の半分を占めることを指定します。このように、内側のリストは正しいものを持つことができます

ブートストラップリストにアイコンを追加する方法は？ Apr 07, 2025 am 10:42 AM

アイコンをブートストラップリストに追加する方法：アイコンライブラリ（Font Awesomeなど）が提供するクラス名を使用して、アイコンをリストアイテム＆lt; li＆gt;に直接詰めます。 Bootstrapクラスを使用して、アイコンとテキストを調整します（たとえば、d-flex、Justify-content-wether、align-Items-center）。ブートストラップタグコンポーネント（バッジ）を使用して、数字またはステータスを表示します。アイコンの位置（Flex-Direction：Row-Reverse;）を調整し、スタイル（CSSスタイル）を制御します。一般的なエラー：アイコンは表示されません（違います

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか？ Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse（）が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール（ShowProcessList、ShowStatus）を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

VUEでエクスポートデフォルトによってエクスポートされたコンポーネントを登録する方法 Apr 07, 2025 pm 06:24 PM

質問：エクスポートデフォルトを通じてエクスポートされるVUEコンポーネントを登録する方法は？回答：3つの登録方法があります。グローバル登録：vue.component（）メソッドを使用して、グローバルコンポーネントとして登録します。ローカル登録：現在のコンポーネントとそのサブコンポーネントでのみ利用可能なコンポーネントオプションに登録します。動的登録：vue.component（）メソッドを使用して、コンポーネントが読み込まれた後に登録します。

Laravelの地理空間：インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件：MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか？データ移行または構造調整は必要ですか？ MySQLはこのような大きなデータ負荷に耐えることができますか？予備分析：キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合（ポート占有率をチェックして構成の変更）、許可の問題（ユーザー許可を実行するサービスを確認）、構成ファイルエラー（パラメーター設定のチェック）、データディレクトリの破損（テーブルスペースの復元）、INNODBテーブルスペースの問題（IBDATA1ファイルのチェック）、プラグインロード障害（エラーログのチェック）が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

See all articles

初めて導入しました！因果推論を使用して部分的に観察可能な強化学習を行う

背景

モチベーション

難易度

方法

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック