#ブートストラップ データとは何ですか?
ブートストラップ データは、置換を含む合計 N 個のサンプルからn 個のサンプルをサンプリングすることを指します。 統計学におけるブートストラップ法 (ブートストラップ法、ブートストラップ法、またはブートストラップ サンプリング法) は、特定のトレーニング セットからの置換を伴う均一なサンプリングです。つまり、サンプルが選択されるたびに、そのサンプルは再度選択され、再びトレーニングセットに追加されました。
自助法は、1979 年にブラッドリー エフロンによって「統計年報」に発表されました。サンプルが母集団に由来しており、正規分布で記述できる場合、その標本分布は正規分布になりますが、サンプルが正規分布で記述できない母集団に由来している場合、漸近分析、ブートストラップ、等置換を伴うランダム サンプリングを使用します。小規模なデータセットの場合、ブートストラップはうまく機能します。
.632 ブートストラップ法
最も一般的に使用される方法は、指定されたデータ セットに d 個のサンプルが含まれていると仮定した場合の .632 ブートストラップ法です。データセットは置換を伴って d 回サンプリングされ、d 個のサンプルのトレーニング セットが生成されます。このように、元のデータ サンプル内の一部のサンプルは、サンプル セット内に複数回出現する可能性があります。トレーニング セットに含まれないサンプルは、最終的に検証セット (テスト セット) を形成します。
明らかに、各サンプルが選択される確率は 1/d であるため、選択されない確率は (1-1/d) になります。このように、サンプルがトレーニングに表示されない確率はd 回選択されていないことを意味し、選択される確率は (1-1/d)d です。 d が無限大に近づくと、この確率は e-1=0.368 に近づくため、トレーニング セットに残っているサンプルは元のデータ セットの約 63.2% を占めます。
以上がブートストラップデータとはの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。