Maison > développement back-end > Tutoriel Python > Comment calculer la valeur P de deux ensembles de données basés sur Python

Comment calculer la valeur P de deux ensembles de données basés sur Python

coldplay.xixi
Libérer: 2020-07-16 17:40:46
avant
6135 Les gens l'ont consulté

Comment calculer la valeur P de deux ensembles de données basés sur Python

Nous devons utiliser p_value lors de l'évaluation des tests A/B. Cet article explique comment utiliser Python pour calculer la signification de deux ensembles de données.

1. Code

# TTest.py
# -*- coding: utf-8 -*-
'''
# Created on 2020-05-20 20:36
# TTest.py
# @author: huiwenhua
'''

## Import the packages
import numpy as np
from scipy import stats

def get_p_value(arrA, arrB):

  a = np.array(arrA)
  b = np.array(arrB)

  t, p = stats.ttest_ind(a,b)

  return p

if __name__ == "__main__":
  get_p_value([1, 2, 3, 5, ], [6, 7, 8, 9, 10])
Copier après la connexion

2. 🎜>
Le test t à deux échantillons consiste à comparer s'il existe une différence significative entre les moyennes des deux populations représentées par les deux échantillons. En plus d'exiger que les échantillons proviennent d'une distribution normale, cela exige également que les variances de population des deux échantillons soient égales, c'est-à-dire « l'homogénéité des variances ».

Tester l'hypothèse nulle : il n'y a pas de différence dans les moyennes de l'échantillon (μ=μ0)

Commande Python stats.ttest_ind(data1,data2)

Lorsqu'il est incertain si les variances des deux populations sont égales, vous devez d'abord utiliser le test de Levene pour tester si les deux populations ont une homogénéité de variances stats.levene(data1,data2). Si la valeur p du résultat renvoyé est bien supérieure à 0,05, alors nous pensons que les deux populations ont une homogénéité de variances. Si les deux populations n'ont pas de variances homogènes, vous devez ajouter le paramètre égal_val et le définir sur False, comme suit.

stats.ttest_ind(data1,data2,equal_var=False) // La valeur par défaut dans TTest est l'homogénéité des variances

Interprétation des résultats
Lorsque la valeur p est inférieure à un certain niveau de signification α (tel que 0,05), on considère qu'il existe une différence significative dans les moyennes de l'échantillon. L'analyse spécifique dépend de l'hypothèse bilatérale. soit l'hypothèse unilatérale est choisie (elle est divisée en inférieur à et supérieur à) Notez que stats.ttest_ind effectue un test bilatéral.


Lorsque la valeur t est supérieure à 0, il y a ((1-p) * 100)% de confiance que le premier ensemble de données est meilleur que le deuxième ensemble de données. Par exemple, p = 0,05, nous sommes alors sûrs à 95 % que le premier ensemble de données est meilleur que le deuxième ensemble de données.

Recommandations d'apprentissage associées :
Tutoriel vidéo Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jb51.net
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal