ブートストラップ アルゴリズムとは、親サンプル分布を表すのに十分な新しいサンプルを再確立するために、複数回の繰り返しサンプリングを通じて限られたサンプル データを使用することを指します。
#ブートストラップの適用は多くの統計的仮定に基づいているため、サンプリングの精度は仮定が確立されるかどうかに影響します。 (推奨学習: ブートストラップ ビデオ チュートリアル )
統計学では、ブートストラップとは、リセットされたランダム サンプリングに依存するすべての実験を指します。ブートストラップを使用して、サンプル推定の精度を計算できます。サンプリングの場合、特定の統計量の 1 つの値 (平均など) しか計算できず、平均統計量の分布を知ることはできません。しかし、ブートストラップ法 (ブートストラップ法) を使用すると、平均統計量の近似分布をシミュレートできます。分散を使用すると、さまざまなことが可能になります (たとえば、導き出した結果を使用して、実際の全体的な状況を推測することができます)。
ブートストラップ法の実装は非常に簡単で、サンプルサイズが n であるとします:
元のサンプルに置換を伴うサンプリングがあり、それを n 回描画します。新しいサンプルが抽出されるたびに、この操作が繰り返されて多くの新しいサンプルが形成され、それを通じてサンプルの分布を計算できます。新しいサンプルの数は通常 1000 ~ 10000 です。計算コストが小さい場合、または精度要件が比較的高い場合は、新しいサンプルの数を増やします。
利点: シンプルで操作が簡単です。
欠点: ブートストラップの適用は多くの統計的仮定に基づいているため、その仮定が確立されているかどうかがサンプリングの精度に影響します。
機械学習において、ブートストラップ法とは、置換を伴うランダム サンプリングを指します。これは、モデルまたはアルゴリズムがその中に存在するバイアス、分散、および特徴をよりよく理解できるようにするリサンプリングです。データのサンプリングにより、さまざまなバイアスを含めてリサンプリングし、それを全体として包含することができます。図 1 に示すように、各サンプル母集団には異なる部分があり、互いに異なります。これは、データセットの全体の平均、標準偏差、その他の記述尺度に影響を与えます。その結果、より堅牢なモデルを開発できるようになります。
ブートストラップは、過剰適合する傾向がある小規模なデータ セットにも適しています。
ブートストラップを使用する理由は、ソリューションの安定性をテストできるためです。複数のサンプル データ セットを使用して複数のモデルをテストすると、堅牢性が向上します。おそらく、1 つのサンプル データ セットの平均値が他のデータ セットよりも大きいか、標準偏差が異なります。このアプローチでは、過剰適合しているモデルや、異なる分散を持つデータセットを使用してテストされていないモデルを特定できます。
使用方法
ブートストラップがますます一般的になっている理由の 1 つは、コンピューティング能力の向上です。以前よりも多くの再配置とリサンプリングが行われています。バギングとブースティングは両方ともブートストラップを使用します
ブートストラップ関連の技術記事の詳細については、ブートストラップ チュートリアル列にアクセスして学習してください。
以上がブートストラップとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。