Maison > Problème commun > le corps du texte

Qu'est-ce que les données d'amorçage

藏色散人
Libérer: 2019-07-26 10:55:17
original
6260 Les gens l'ont consulté

Qu'est-ce que les données d'amorçage

Qu'est-ce que les données bootstrap ?

les données bootstrap font référence à l'échantillonnage de n échantillons sur un total de N échantillons avec remplacement.

En statistiques, la méthode bootstrap (méthode Bootstrap, Bootstrapping ou méthode d'échantillonnage bootstrap) est un échantillonnage uniforme avec remplacement à partir d'un ensemble d'apprentissage donné, c'est-à-dire que chaque fois qu'un échantillon est sélectionné, il peut être sélectionné à nouveau et ajouté à nouveau à l’ensemble d’entraînement.

La méthode d'auto-assistance a été publiée par Bradley Efron dans "Annals of Statistics" en 1979. Lorsque l'échantillon est issu de la population et peut être décrit par une distribution normale, sa distribution d'échantillonnage est une distribution normale mais lorsque l'échantillon est issu d'une population qui ne peut être décrite par une distribution normale, il est analysé par analyse asymptotique, bootstrap, etc. Utilisez un échantillonnage aléatoire avec remplacement. Pour les petits ensembles de données, le bootstrap fonctionne bien.

Méthode bootstrap .632

La méthode la plus couramment utilisée est la méthode bootstrap .632, en supposant que l'ensemble de données donné contient d échantillons. L'ensemble de données est échantillonné d fois avec remplacement, produisant un ensemble d'apprentissage de d échantillons. De cette manière, certains échantillons des échantillons de données d'origine sont susceptibles d'apparaître plusieurs fois dans l'ensemble d'échantillons. Les échantillons qui n'entrent pas dans l'ensemble d'apprentissage forment finalement l'ensemble de vérification (ensemble de test).

Évidemment, la probabilité que chaque échantillon soit sélectionné est de 1/d, donc la probabilité de ne pas être sélectionné est de (1-1/d). De cette façon, la probabilité qu'un échantillon n'apparaisse pas dans la formation. ensemble est qu’il n’a pas été sélectionné d fois. La probabilité de sélection est (1-1/d)d. Lorsque d s'approche de l'infini, cette probabilité approche e-1 = 0,368, de sorte que les échantillons restant dans l'ensemble d'apprentissage représentent environ 63,2 % de l'ensemble de données d'origine.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal