Techniques d'échantillonnage stratégique en Python
L'échantillonnage est une méthode de collecte de données couramment utilisée en statistiques. Elle peut sélectionner une partie d'échantillons de l'ensemble de données pour analyse afin de déduire les caractéristiques de l'ensemble de données. À l’ère du Big Data, la quantité de données est énorme et l’utilisation d’échantillons complets à des fins d’analyse prend du temps et n’est pas économiquement pratique. Par conséquent, le choix d’une méthode d’échantillonnage appropriée peut améliorer l’efficacité de l’analyse des données. Cet article présente principalement les techniques d'échantillonnage stratifié en Python.
Qu'est-ce que l'échantillonnage stratifié ?
En échantillonnage, l'échantillonnage stratifié est une technique couramment utilisée. Différent de l’échantillonnage aléatoire simple, l’échantillonnage stratifié divise les données en plusieurs couches au sein de la population, et chaque couche possède les mêmes caractéristiques d’attribut. Ensuite, des échantillons sont obtenus dans chaque strate selon différentes probabilités. Cette méthode convient lorsqu'il existe des caractéristiques particulières dans la population, en particulier lorsque ces caractéristiques sont évidentes. L'échantillonnage stratifié est une méthode d'échantillonnage statistique plus efficace.
Pourquoi un échantillonnage stratifié ?
L'avantage de l'échantillonnage stratifié est qu'il peut améliorer la précision de l'échantillonnage et réduire les erreurs d'échantillonnage, créant ainsi de meilleurs modèles et inférences. Dans le scénario actuel d'analyse des données, il existe différents types de variables dans la population. Un traitement inapproprié de ces variables entraînera des écarts ou des erreurs, rendant le modèle établi incapable de s'approcher de la situation réelle. Grâce à la technologie d'échantillonnage stratifié, les échantillons collectés peuvent être contrôlés afin que les échantillons composés de différentes variables puissent refléter plus précisément la véritable situation de la population.
Comment faire un échantillonnage stratifié en Python ?
En Python, il existe une variété de packages capables d'implémenter l'échantillonnage stratifié, dont les plus célèbres sont les bibliothèques numpy et pandas. Les deux bibliothèques fournissent de nombreuses fonctions utiles qui peuvent nous aider à mettre en œuvre des techniques d'échantillonnage stratifié.
Ci-dessous, nous utilisons un exemple pour montrer comment utiliser Python pour mettre en œuvre un échantillonnage stratifié.
Dans cet exemple, nous supposons qu'il existe un ensemble de données expérimentales avec 5 variables, dont le sexe, l'âge, la taille, le poids et l'opportunité de fumer. Cet ensemble de données se prête bien aux techniques d’échantillonnage stratifié.
Tout d’abord, nous devons diviser l’ensemble de données en différentes couches. Nous avons choisi le sexe comme variable de stratification et divisé les hommes et les femmes en deux strates.
import pandas as pd # 生成测试数据 data = pd.DataFrame({ 'sex': ['M', 'M', 'M', 'F', 'F', 'F'], 'age': [18, 20, 22, 25, 27, 30], 'height': [170, 172, 175, 160, 165, 170], 'weight': [65, 70, 75, 55, 60, 65], 'smoke': [1, 1, 0, 0, 1, 0] }) # 分层抽样 male = data[data['sex'] == 'M'] female = data[data['sex'] == 'F']
Ensuite, nous devons déterminer la taille de l'échantillon pour chaque niveau et le taux d'échantillonnage correspondant. Dans cet exemple, nous supposons que 10 % de l’échantillon est constitué de femmes et 20 % d’hommes.
# 分层抽样比例 sampling_prop = { 'M': 0.2, 'F': 0.1 } # 计算每个层级的样本大小 m_size = int(len(male) * sampling_prop['M']) f_size = int(len(female) * sampling_prop['F'])
Enfin, nous pouvons utiliser la fonction random.choice dans la bibliothèque numpy pour tirer des échantillons de chaque niveau. Dans cet exemple, nous extrayons des échantillons du niveau requis de chaque niveau :
import numpy as np # 分层抽样 msample = male.sample(m_size) fsample = female.sample(f_size) # 整合分层样本 sample = pd.concat([msample, fsample])
Les résultats de l'échantillonnage stratifié seront relativement plus précis, et le modèle établi avec l'échantillon complet sera plus facilement utilisé. En pratique, l’application de techniques d’échantillonnage stratifié peut améliorer l’efficacité et la précision de la recherche de données, conduisant ainsi à des conclusions plus précises.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!