変分推論は、複雑な確率モデルの事後分布を近似するために使用される確率推論方法です。元の問題を最適化問題に変換することで、計算の複雑さを軽減します。変分推論は、機械学習、統計、情報理論などの分野で広く使用されています。
なぜバリエーションと呼ばれるのでしょうか?
「変分」という言葉は、関数理論の変分法に由来しており、関数の極値を解く方法です。変分推論では、変分距離と呼ばれる距離計量を最小化することによって近似事後分布を求めるため、この推論方法は変分推論と呼ばれます。
変分推論の基本的な考え方は、近似分布を見つけることで真の事後分布をできるだけ近似することです。この目的のために、パラメータ化された分布族 q(z;\lambda) を導入します。ここで、z は隠れ変数、\lambda は取得されるパラメータです。私たちの目標は、真の事後分布 p(z|x) との差を最小化する分布 q(z;\lambda) を見つけることです。 分布 q(z;\lambda) と p(z|x) の間の距離を測定するには、通常 KL 発散を使用して測定される変分距離を使用します。 KL ダイバージェンスは、2 つの確率分布間の差異の尺度です。具体的には、KL ダイバージェンスは次の式で計算できます。 KL(q(z;\lambda) || p(z|x)) = \int q(z;\lambda) \log \frac{q(z;\lambda)}{p(z|x)} dz KL 発散を最小化することで、分布 q(z;\lambda) と真の事後分布 p(z|x) の差を最小化するパラメータ \lambda を見つけることができます。このようにして、後続の推論および予測タスクの近似事後分布を取得できます。 要約すると、変分推論の基本的な考え方は、パラメーター化された分布族を見つけることで真の事後分布を近似し、KL 発散を使用して 2 つの分布間の差を測定することです。 KL 発散を最小限に抑えることで、後続の推論タスクの近似事後分布を取得できます。
D_{KL}(q(z;\lambda)||p(z|x))=\int q(z;\lambda)\log\frac{q( z;\lambda)}{p(z|x)}dz
q(z;\lambda) が p( z|x)、KL 発散は最小値 0 となります。したがって、私たちの目標は、KL 発散を最小化すること、つまり次のように変換できます。
\lambda^*=\arg\min_{\lambda}D_{KL}(q(z; \lambda)||p(z|x))
ただし、KL 発散は扱いにくい複雑な関数であるため、直接最小化することはできません。したがって、この問題を解決するには、いくつかの近似的な方法を使用する必要があります。
変分推論では、変分下限と呼ばれる手法を使用して KL 発散を近似します。具体的には、まず KL 発散を次のように分解します。
D_{KL}(q(z;\lambda)||p(z|x))=E_{q( z; \lambda)}[\log q(z;\lambda)-\log p(z,x)]
次に、新しい分布 q(z |x) を導入します。そしてジェンセンの不等式を使用して、下限が得られました:
##\log p(x)\ge E_{q(z|x)}[\log p(x, z)-\ log q(z|x)] ここで、 \log p(x) はデータの周辺確率、p(x,z) は同時確率分布、q ( z|x) は近似事後分布です。 この下限は変分下限または ELBO (証拠下限) と呼ばれ、近似事後分布のパラメーターは ELBO\lambda を最大化することで最適化できます: \lambda^*=\arg\max_{\lambda}E_{q(z|x;\lambda)}[\log p(x,z)-\log q(z|x ;\ lambda)] この最適化問題は、勾配降下法などの最適化アルゴリズムによって解決できることに注意してください。最後に、得られた近似事後分布 q(z|x) は、予測やモデルの選択など、さまざまな期待値を計算するために使用できます。 一言で言えば、変分推論は KL 発散の最小化に基づく確率推論手法であり、変分下限の手法を導入することにより、最適化アルゴリズムを使用して複雑な確率モデルの結果を近似的に計算します。 . 経験的分布。以上が変動因子の推論の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。