Qu'est-ce que les données bootstrap ?
les données bootstrap font référence à l'échantillonnage de n échantillons sur un total de N échantillons avec remplacement.
En statistiques, la méthode bootstrap (méthode Bootstrap, Bootstrapping ou méthode d'échantillonnage bootstrap) est un échantillonnage uniforme avec remplacement à partir d'un ensemble d'apprentissage donné, c'est-à-dire que chaque fois qu'un échantillon est sélectionné, il peut être sélectionné à nouveau et ajouté à nouveau à l’ensemble d’entraînement.
La méthode d'auto-assistance a été publiée par Bradley Efron dans "Annals of Statistics" en 1979. Lorsque l'échantillon est issu de la population et peut être décrit par une distribution normale, sa distribution d'échantillonnage est une distribution normale mais lorsque l'échantillon est issu d'une population qui ne peut être décrite par une distribution normale, il est analysé par analyse asymptotique, bootstrap, etc. Utilisez un échantillonnage aléatoire avec remplacement. Pour les petits ensembles de données, le bootstrap fonctionne bien.
Méthode bootstrap .632
La méthode la plus couramment utilisée est la méthode bootstrap .632, en supposant que l'ensemble de données donné contient d échantillons. L'ensemble de données est échantillonné d fois avec remplacement, produisant un ensemble d'apprentissage de d échantillons. De cette manière, certains échantillons des échantillons de données d'origine sont susceptibles d'apparaître plusieurs fois dans l'ensemble d'échantillons. Les échantillons qui n'entrent pas dans l'ensemble d'apprentissage forment finalement l'ensemble de vérification (ensemble de test).
Évidemment, la probabilité que chaque échantillon soit sélectionné est de 1/d, donc la probabilité de ne pas être sélectionné est de (1-1/d). De cette façon, la probabilité qu'un échantillon n'apparaisse pas dans la formation. ensemble est qu’il n’a pas été sélectionné d fois. La probabilité de sélection est (1-1/d)d. Lorsque d s'approche de l'infini, cette probabilité approche e-1 = 0,368, de sorte que les échantillons restant dans l'ensemble d'apprentissage représentent environ 63,2 % de l'ensemble de données d'origine.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!