백엔드 개발 파이썬 튜토리얼 차 시음: A/B 테스트의 통계 분석을 위한 Python 패키지

차 시음: A/B 테스트의 통계 분석을 위한 Python 패키지

Aug 12, 2024 pm 10:35 PM

tea-tasting: a Python package for the statistical analysis of A/B tests

소개

저는 다음 기능을 갖춘 A/B 테스트 통계 분석용 Python 패키지인 tea-tasting을 개발했습니다.

  • 학생 t-검정, 부트스트랩, CUPED를 사용한 분산 감소, 검정력 분석, 기타 통계 방법 및 기본 접근 방식
  • BigQuery, ClickHouse, PostgreSQL/GreenPlum, Snowflake, Spark, Pandas 및 Ibis에서 지원하는 20개 이상의 기타 백엔드 등 광범위한 데이터 백엔드를 지원합니다.
  • 확장 가능한 API: 맞춤형 측정항목을 정의하고 원하는 통계 테스트를 사용하세요.
  • 수작업을 줄여주는 편리한 API이자, 오류를 최소화하는 프레임워크입니다.
  • 자세한 문서입니다.

이번 블로그 게시물에서는 실험 분석에서 차 시음을 활용하여 얻을 수 있는 이점을 각각 살펴봅니다.

사용해보고 싶다면 설명서를 확인하세요.

통계적 방법

차 시음에는 실험 분석에 필요한 대부분의 통계적 방법과 기법이 포함됩니다.

스튜던트 t-테스트와 Z-테스트를 ​​사용하여 측정 평균과 비율을 분석합니다. 또는 부트스트랩을 사용하여 원하는 다른 통계를 분석하세요. 그리고 Bootstrap을 사용하여 분위수를 분석하기 위해 미리 정의된 방법이 있습니다. 차 시음은 A/B 테스트의 다양한 변형 샘플 비율에서 불일치도 감지합니다.

차 시음은 평균 비율 분석을 위해 델타 방법을 적용합니다. 예를 들어, 세션이 무작위 단위가 아니라고 가정할 때 평균 세션 수당 평균 주문 수입니다.

실험 전 데이터, 측정항목 예측 또는 기타 공변량을 사용하여 분산을 줄이고 실험의 민감도를 높입니다. 이 접근 방식은 CUPED 또는 CUPAC이라고도 합니다.

스튜던트 t-검정과 Z-검정의 백분율 변화에 대한 신뢰 구간 계산은 까다로울 수 있습니다. 절대 변화에 대한 신뢰구간을 취하여 이를 통제 평균으로 나누면 편향된 결과가 나옵니다. 차 시음은 델타 방식을 적용하여 정확한 간격을 계산합니다.

스튜던트 t-테스트와 Z-테스트의 통계적 검정력을 분석합니다. 세 가지 가능한 옵션이 있습니다:

  • 통계력과 총 관찰 횟수를 고려하여 효과 크기를 계산합니다.
  • 통계력과 효과 크기를 고려하여 총 관측치 수를 계산합니다.
  • 효과 크기와 총 관측 횟수를 고려하여 통계적 검정력을 계산합니다.

자세한 사용자 가이드에서 자세히 알아보세요.

로드맵에는 다음이 포함됩니다.

  • 여러 가설 테스트:
    • 가족별 오류율: Holm–Bonferroni 방법
    • 잘못 발견률: Benjamini-Hochberg 절차
  • A/A 테스트 및 시뮬레이션을 통해 통계 테스트의 위력을 분석합니다.
  • 추가 통계 테스트:
    • 빈도 데이터에 대한 점근적 및 정확한 검정.
    • Mann-Whitney U 테스트
  • 순차 테스트: mSPRT를 사용하면 항상 유효한 p-값.

원하는 통계 테스트를 통해 맞춤 측정항목을 정의할 수 있습니다.

데이터 백엔드

실험 데이터를 저장하고 처리하기 위한 다양한 데이터베이스와 엔진이 있습니다. 그리고 대부분의 경우 자세한 실험 데이터를 Python 환경으로 가져오는 것은 효율적이지 않습니다. 스튜던트 t-테스트, Z-테스트 등 많은 통계 테스트에서는 분석을 위해 집계된 데이터만 필요합니다.

예를 들어 원시 실험 데이터가 ClickHouse에 저장되어 있는 경우 Python 환경에서 세분화된 데이터를 가져와 집계를 수행하는 것보다 ClickHouse에서 직접 개수, 평균, 분산, 공분산을 계산하는 것이 더 빠르고 효율적입니다.

필요한 모든 통계를 수동으로 쿼리하는 것은 어렵고 오류가 발생하기 쉬운 작업일 수 있습니다. 예를 들어 CUPED를 사용한 비율 측정항목 및 분산 감소 분석에는 행 수와 분산뿐만 아니라 공분산도 필요합니다. 하지만 걱정하지 마세요. 차 시음이 모두 효과가 있습니다.

차 시음은 Pandas DataFrame 또는 Ibis Table로 데이터를 허용합니다. Ibis는 다양한 데이터 백엔드에 대한 DataFrame API 역할을 하는 Python 패키지입니다. BigQuery, ClickHouse, PostgreSQL/GreenPlum, Snowflake 및 Spark를 포함하여 20개 이상의 백엔드를 지원합니다. SQL 쿼리를 작성하고 Ibis 테이블로 래핑한 후 차 시음에 전달할 수 있습니다.

차 시음은 다음을 가정합니다.

  • 데이터는 개별 사용자 등 무작위 단위로 그룹화됩니다.
  • A/B 테스트의 변형을 나타내는 열이 있습니다(일반적으로 A, B 등으로 표시됨).
  • 측정항목 계산에 필요한 모든 열(예: 주문 수, 수익 등)이 표에 포함되어 있습니다.

부트스트랩과 같은 일부 통계 방법에는 분석을 위해 세부적인 데이터가 필요합니다. 이 경우에는 차 시음을 통해 세부 데이터도 가져옵니다.

데이터 백엔드 가이드에서 자세히 알아보세요.

편리한 API

NumPy, SciPy 및 Ibis만 사용하여 위에 나열된 모든 작업을 수행할 수 있습니다. 실제로 차 시음에서는 이러한 패키지를 내부적으로 사용합니다. 그 위에 차 시음이 제공하는 것은 편리한 상위 API입니다.

설명하는 것보다 보여주는 것이 더 쉽습니다. 기본 예는 다음과 같습니다.

import tea_tasting as tt


data = tt.make_users_data(seed=42)

experiment = tt.Experiment(
    sessions_per_user=tt.Mean("sessions"),
    orders_per_session=tt.RatioOfMeans("orders", "sessions"),
    orders_per_user=tt.Mean("orders"),
    revenue_per_user=tt.Mean("revenue"),
)

result = experiment.analyze(data)
print(result)
#>             metric control treatment rel_effect_size rel_effect_size_ci pvalue
#>  sessions_per_user    2.00      1.98          -0.66%      [-3.7%, 2.5%]  0.674
#> orders_per_session   0.266     0.289            8.8%      [-0.89%, 19%] 0.0762
#>    orders_per_user   0.530     0.573            8.0%       [-2.0%, 19%]  0.118
#>   revenue_per_user    5.24      5.73            9.3%       [-2.4%, 22%]  0.123
로그인 후 복사

별도의 매개변수화와 추론을 사용하는 2단계 접근 방식은 통계 모델링에서 일반적입니다. 이러한 분리는 코드를 더욱 모듈화하고 이해하기 쉽게 만드는 데 도움이 됩니다.

차 시음은 까다롭고 오류가 발생하기 쉬운 계산을 수행합니다.

  • 델타법을 사용한 비율 지표 분석
  • CUPED/CUPAC를 사용한 분산 감소(비율 측정항목의 델타 방법과도 결합)
  • 절대 변화와 백분율 변화에 대한 신뢰 구간 계산
  • 통계력 분석

오류를 방지하기 위해 실험 데이터를 표현하는 프레임워크도 제공합니다. 올바른 분석을 위해서는 데이터를 무작위 단위별로 그룹화하고 데이터 세트의 모든 단위를 포함하는 것이 중요합니다.

또한 차 시음은 결과의 예쁜 형식화, 측정항목 매개변수에 대한 컨텍스트 관리자 등 몇 가지 편리한 방법과 기능을 제공합니다.

선적 서류 비치

마지막으로 중요한 것은 문서입니다. 저는 도구 채택을 위해서는 좋은 문서화가 중요하다고 믿습니다. 이것이 바로 제가 여러 사용자 가이드와 API 참조를 작성한 이유입니다.

사용자 가이드의 기본 사용법 예시부터 시작하는 것이 좋습니다. 그런 다음 동일한 가이드에서 분산 감소 또는 검정력 분석과 같은 특정 주제를 탐색할 수 있습니다.

차 시음과 함께 원하는 데이터 백엔드를 사용하는 방법을 알아보려면 데이터 백엔드 가이드를 참조하세요.

차 시음에 포함되지 않은 통계 테스트를 수행하려면 맞춤 측정항목 가이드를 참조하세요.

API 참조를 사용하여 차 시음에서 사용할 수 있는 함수, 클래스 및 메소드에 대한 모든 매개변수와 자세한 정보를 살펴보세요.

결론

실험 분석에 적용할 수 있는 통계 방법은 다양합니다. 그러나 대부분의 경우 실제로는 그 중 소수만이 사용됩니다.

한편, SciPy와 같은 범용 통계 패키지에는 포함되지 않은 A/B 테스트 분석에만 특화된 방법이 있습니다.

차 시음 기능에는 가장 중요한 통계 테스트와 A/B 테스트 분석에 특화된 방법이 포함되어 있습니다.

차시음은 분석에 소요되는 시간을 줄이고 오류 확률을 최소화하는 데 도움이 되는 편리한 API를 제공합니다.

또한 차 시음은 데이터가 저장되어 있는 선택한 데이터 백엔드에서 통계를 계산하여 계산 효율성을 최적화합니다.

자세한 문서를 통해 실험 분석을 위해 차 시음을 사용하는 방법을 빠르게 배울 수 있습니다.

추신 패키지 이름

패키지 이름 "tea-tasting"은 두 가지 주제를 가리키는 말장난입니다.

  • 차를 맛보는 여인은 로널드 피셔(Ronald Fisher)가 고안한 유명한 실험입니다. 이 실험에서 Fisher는 컵에 차가 먼저 추가되었는지 우유가 먼저 추가되었는지를 식별할 수 있다는 여성의 주장을 분석하기 위해 귀무 가설 유의성 테스트 프레임워크를 개발했습니다.
  • '차 시음'은 음성학적으로 William Gosset이 개발한 통계 테스트인 't-테스트' 또는 Student's t-테스트와 유사합니다.

위 내용은 차 시음: A/B 테스트의 통계 분석을 위한 Python 패키지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Python vs. C : 학습 곡선 및 사용 편의성 Python vs. C : 학습 곡선 및 사용 편의성 Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

Python 학습 : 2 시간의 일일 연구가 충분합니까? Python 학습 : 2 시간의 일일 연구가 충분합니까? Apr 18, 2025 am 12:22 AM

하루에 2 시간 동안 파이썬을 배우는 것으로 충분합니까? 목표와 학습 방법에 따라 다릅니다. 1) 명확한 학습 계획을 개발, 2) 적절한 학습 자원 및 방법을 선택하고 3) 실습 연습 및 검토 및 통합 연습 및 검토 및 통합,이 기간 동안 Python의 기본 지식과 고급 기능을 점차적으로 마스터 할 수 있습니다.

Python vs. C : 성능과 효율성 탐색 Python vs. C : 성능과 효율성 탐색 Apr 18, 2025 am 12:20 AM

Python은 개발 효율에서 C보다 낫지 만 C는 실행 성능이 높습니다. 1. Python의 간결한 구문 및 풍부한 라이브러리는 개발 효율성을 향상시킵니다. 2.C의 컴파일 유형 특성 및 하드웨어 제어는 실행 성능을 향상시킵니다. 선택할 때는 프로젝트 요구에 따라 개발 속도 및 실행 효율성을 평가해야합니다.

Python vs. C : 주요 차이점 이해 Python vs. C : 주요 차이점 이해 Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까? Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까? Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

파이썬 : 자동화, 스크립팅 및 작업 관리 파이썬 : 자동화, 스크립팅 및 작업 관리 Apr 16, 2025 am 12:14 AM

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.

과학 컴퓨팅을위한 파이썬 : 상세한 모양 과학 컴퓨팅을위한 파이썬 : 상세한 모양 Apr 19, 2025 am 12:15 AM

과학 컴퓨팅에서 Python의 응용 프로그램에는 데이터 분석, 머신 러닝, 수치 시뮬레이션 및 시각화가 포함됩니다. 1.numpy는 효율적인 다차원 배열 및 수학적 함수를 제공합니다. 2. Scipy는 Numpy 기능을 확장하고 최적화 및 선형 대수 도구를 제공합니다. 3. 팬더는 데이터 처리 및 분석에 사용됩니다. 4. matplotlib는 다양한 그래프와 시각적 결과를 생성하는 데 사용됩니다.

웹 개발을위한 파이썬 : 주요 응용 프로그램 웹 개발을위한 파이썬 : 주요 응용 프로그램 Apr 18, 2025 am 12:20 AM

웹 개발에서 Python의 주요 응용 프로그램에는 Django 및 Flask 프레임 워크 사용, API 개발, 데이터 분석 및 시각화, 머신 러닝 및 AI 및 성능 최적화가 포함됩니다. 1. Django 및 Flask 프레임 워크 : Django는 복잡한 응용 분야의 빠른 개발에 적합하며 플라스크는 소형 또는 고도로 맞춤형 프로젝트에 적합합니다. 2. API 개발 : Flask 또는 DjangorestFramework를 사용하여 RESTFULAPI를 구축하십시오. 3. 데이터 분석 및 시각화 : Python을 사용하여 데이터를 처리하고 웹 인터페이스를 통해 표시합니다. 4. 머신 러닝 및 AI : 파이썬은 지능형 웹 애플리케이션을 구축하는 데 사용됩니다. 5. 성능 최적화 : 비동기 프로그래밍, 캐싱 및 코드를 통해 최적화

See all articles