목차
배경
사업배경
Thinking
Effect
데이터 베이스 MySQL 튜토리얼 MySQL에서 분위수 값을 쿼리하는 방법

MySQL에서 분위수 값을 쿼리하는 방법

May 27, 2023 pm 04:36 PM
mysql

배경

분위수 값의 개념

통계 및 데이터 분석에서 분위수(또는 사분위수)는 데이터 분포의 통계적 특성을 설명하는 데 자주 사용됩니다. 일반적으로 분위수 값은 첫 번째 분위수(Q1), 두 번째 분위수(Q2)(즉, 중앙값), 세 번째 분위수(Q3) 및 극단 차이(IQR) 등 4개의 동일한 부분으로 나뉩니다. 그 중 데이터의 1/4은 첫 번째 분위수보다 작고, 데이터의 1/4은 세 번째 분위수보다 크며, 데이터의 중간 50%는 첫 번째 분위수와 세 번째 분위수 사이에 있습니다. 통계에서 첫 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 전체 시퀀스의 상위 25%에 해당하는 숫자를 의미하고, 두 번째 분위수는 데이터 집합을 크기 순으로 정렬한 후 마지막 숫자를 의미합니다. 중간 위치에 있고 세 번째 분위수는 데이터 세트를 크기 순서로 배열한 후 전체 시퀀스의 하위 25%에 있는 숫자를 나타냅니다. 중앙값은 두 번째 사분위수입니다. 데이터 분석에서 분위수 값은 데이터 분포를 이해하고 데이터가 한쪽으로 치우쳐 있는지 또는 얼마나 분산되어 있는지 확인하는 데 도움이 될 수 있습니다. 데이터 분포가 고르지 않으면 분위수 값이 데이터의 차이를 더 정확하게 나타낼 수 있습니다.

사업배경

가맹점이 발행하는 쿠폰의 액면가 분포 범위는 [1, 20]이며, 각 쿠폰에는 해당 액면가가 표시됩니다. 쿠폰 비용을 정확하게 통제하기 위해서는 쿠폰 발행 상황을 실시간으로 파악하여 보다 정확한 평가가 필요합니다. 쿠폰 발행량, 평균 쿠폰 발행량, 발행량 분위값에 대한 실시간 모니터링(간격별로 발행된 평균 쿠폰 금액 파악)을 통해, 쿠폰 발행에 대한 보다 명확한 이해가 가능합니다. 쿠폰.

현재 비즈니스에서는 다음 지표를 정리했으며 학생들에게 데이터 제공을 요구합니다. 모든 지표는 미세한 통계 세분화를 기반으로 합니다.

발행 금액: 발행된 쿠폰 총액

평균 쿠폰 발행 금액: 발행된 총액/ 총 발행량

쿠폰 발행량 0.1 백분위수 평균: 분당 발행된 쿠폰의 양을 액면가 기준으로 정렬하여 액면가가 앞에, 액면이 작을수록 분당 발행된 쿠폰 중 상위 10%의 평균 값을 계산합니다. 예를 들어, 쿠폰 금액의 순서는 10, 9, 8, 8, 6, 5, 4, 4, 2, 2이며, 0.1 분위수 평균은 10입니다.]

쿠폰 금액의 0.2 분위수 평균: 금액 분당 발행된 쿠폰 수는 액면가를 기준으로 하며, 액면가가 큰 쪽이 앞에 오거나 액면가가 작은 쪽이 오도록 하여 분당 발행된 쿠폰 중 상위 20%의 평균 값을 계산합니다. 예를 들어 발행된 쿠폰의 액면가 순서는 다음과 같습니다. : 10,9,8,8, 6, 5, 4, 4, 2, 2이면 0.2 분위수 평균은 (10+9)/2=9.5]

발행량, 평균 쿠폰 금액 등의 지표 MySQL을 이용하여 구현할 수 있는데 어떻게 구현하고 사용하는지 MySQL에서 Quantile 값을 쿼리하는 것은 어떨까요?

Thinking

MySQL은 정렬을 구현합니다

row_number() over ( partition by a1.min order by metric_value desc) as orderNum
로그인 후 복사

metric_value는 쿠폰 발행량을 나타냅니다. 위 함수를 통해 쿠폰 발행량에 따라 정렬이 가능하며, 분당 쿠폰 발행 데이터는 금액별로 정렬됩니다

MySQL. topN을 구현

SELECT * FROM sales ORDER BY amount DESC LIMIT 10;
로그인 후 복사

분명히, 이 topN 방법은 분 단위로 정렬을 수행할 수 없으며 상위 N%가 사용됩니다. N%의 양을 알기 위해서는 먼저 총액을 파악해야 하므로 먼저 분당 총액을 계산해야 합니다. 그런 다음 N%를 곱하면 N%를 추출하는 데 필요한 데이터의 양을 알 수 있습니다.

select hour,min, count(1) as cn 
from table  
where dt=20230423 and hour=11 and min>=0 and min<=30 
group by hour,min
로그인 후 복사

그런 다음 통계 결과에 N%를 곱합니다

select dt,a2.hour,a2.min as min,metric_value, round(cn*N%) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min, 
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min , count(1) as cn 
	from table c 
	where dt=20230423 and hour=11 and min>=0 and min<=30  
	group by hour,min ) a3
on a2.hour=a3.hour and a2.min=a3.min
로그인 후 복사

이렇게 하면 cn(분위수 값을 계산하는 데 필요한 데이터의 양)의 크기와 orderNum(현재 쿠폰은 단위별로 정렬됩니다. 데이터의 처음 N%를 가져온 다음 데이터의 이 부분에 대해 평균 처리를 수행하여 분위수 값 데이터를 가져옵니다.

계산 로직을 조정하고 이를 융합하여 다음과 같이 백분위수 값의 SQL을 얻습니다.

select dt,hour,min, round(avg(metric_value)) as metric_value 
from ( 
	select dt,a2.hour,a2.min as min,metric_value, round(cn*?) as cn, orderNum 
from ( 
	select dt,hour,a1.min as min,
	metric_value, row_number() over ( partition by a1.min order by metric_value desc) as orderNum 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a2 
inner join ( 
	select hour,min, count(1) as cn 
	from table a1 
	where dt=20230423 and hour=11 and min>=0 and min<=30 
	) as a3
on a2.hour=a3.hour and a2.min=a3.min ) as q 
where cn>orderNum 
group by dt,hour,min 
order by dt,hour,min
로그인 후 복사

이 데이터는 cn > orderNum.인 경우 백분위수 값 통계 계산 범위 내에 있습니다. 0.1 백분위수 값을 계산하기 위해서는 분당 최초 10%의 쿠폰 발행 데이터를 수집해야 한다. 액면가별로 정렬하고 분 단위로 그룹화한 후 각 기록에 기록 순위가 표시됩니다. 분당 발행된 쿠폰의 총량에 10%를 곱하여 cnt를 구합니다. 이 값은 해당 분의 0.1분 평균을 계산하는 데 필요한 데이터의 양입니다. cnt

  • 설명 MySQL을 사용하여 분위수 값을 계산하기 전에는 항상 분당 쿠폰 발행 데이터를 Java 프로그램을 통해 쿼리한 후 정렬하고 평균을 계산하는 방식으로 분위수 값을 구현했습니다. 프로그램 구현 시 가장 큰 문제점은 발행된 쿠폰의 양이 상대적으로 많을 경우 일정 기간 동안의 분위수 값 지표를 쿼리해야 하므로 프로그램에 큰 부담이 된다는 점입니다. 실제로 우리의 실제 사업에서는 이런 문제가 있습니다. 2시간 분량의 분위수 값 데이터를 쿼리할 때마다 백만 개가 넘는 데이터가 Java 프로그램에 로드됩니다. 이는 데이터 쿼리 서비스에 있어서 매우 무서운 일입니다. 이 문제를 해결하기 위해서는 MySQL을 통해 Quantile 값에 대한 쿼리를 구현해야 합니다.

Effect

상세 데이터는 프로그램에서 쿼리하여 Quantile 값을 계산합니다. --> MySQL은 Quantile 값에 대한 직접 쿼리를 구현합니다.

성능은 1분 이상 --> 15초 이내입니다. 개선

위 내용은 MySQL에서 분위수 값을 쿼리하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

phpmyadmin을 여는 방법 phpmyadmin을 여는 방법 Apr 10, 2025 pm 10:51 PM

다음 단계를 통해 phpmyadmin을 열 수 있습니다. 1. 웹 사이트 제어판에 로그인; 2. phpmyadmin 아이콘을 찾고 클릭하십시오. 3. MySQL 자격 증명을 입력하십시오. 4. "로그인"을 클릭하십시오.

MySQL : 세계에서 가장 인기있는 데이터베이스 소개 MySQL : 세계에서 가장 인기있는 데이터베이스 소개 Apr 12, 2025 am 12:18 AM

MySQL은 오픈 소스 관계형 데이터베이스 관리 시스템으로, 주로 데이터를 신속하고 안정적으로 저장하고 검색하는 데 사용됩니다. 작업 원칙에는 클라이언트 요청, 쿼리 해상도, 쿼리 실행 및 반환 결과가 포함됩니다. 사용의 예로는 테이블 작성, 데이터 삽입 및 쿼리 및 조인 작업과 같은 고급 기능이 포함됩니다. 일반적인 오류에는 SQL 구문, 데이터 유형 및 권한이 포함되며 최적화 제안에는 인덱스 사용, 최적화 된 쿼리 및 테이블 분할이 포함됩니다.

단일 스레드 레 디스를 사용하는 방법 단일 스레드 레 디스를 사용하는 방법 Apr 10, 2025 pm 07:12 PM

Redis는 단일 스레드 아키텍처를 사용하여 고성능, 단순성 및 일관성을 제공합니다. 동시성을 향상시키기 위해 I/O 멀티플렉싱, 이벤트 루프, 비 블로킹 I/O 및 공유 메모리를 사용하지만 동시성 제한 제한, 단일 고장 지점 및 쓰기 집약적 인 워크로드에 부적합한 제한이 있습니다.

MySQL을 사용하는 이유는 무엇입니까? 혜택과 장점 MySQL을 사용하는 이유는 무엇입니까? 혜택과 장점 Apr 12, 2025 am 12:17 AM

MySQL은 성능, 신뢰성, 사용 편의성 및 커뮤니티 지원을 위해 선택됩니다. 1.MYSQL은 효율적인 데이터 저장 및 검색 기능을 제공하여 여러 데이터 유형 및 고급 쿼리 작업을 지원합니다. 2. 고객-서버 아키텍처 및 다중 스토리지 엔진을 채택하여 트랜잭션 및 쿼리 최적화를 지원합니다. 3. 사용하기 쉽고 다양한 운영 체제 및 프로그래밍 언어를 지원합니다. 4. 강력한 지역 사회 지원을 받고 풍부한 자원과 솔루션을 제공합니다.

MySQL의 장소 : 데이터베이스 및 프로그래밍 MySQL의 장소 : 데이터베이스 및 프로그래밍 Apr 13, 2025 am 12:18 AM

데이터베이스 및 프로그래밍에서 MySQL의 위치는 매우 중요합니다. 다양한 응용 프로그램 시나리오에서 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 1) MySQL은 웹, 모바일 및 엔터프라이즈 레벨 시스템을 지원하는 효율적인 데이터 저장, 조직 및 검색 기능을 제공합니다. 2) 클라이언트 서버 아키텍처를 사용하고 여러 스토리지 엔진 및 인덱스 최적화를 지원합니다. 3) 기본 사용에는 테이블 작성 및 데이터 삽입이 포함되며 고급 사용에는 다중 테이블 조인 및 복잡한 쿼리가 포함됩니다. 4) SQL 구문 오류 및 성능 문제와 같은 자주 묻는 질문은 설명 명령 및 느린 쿼리 로그를 통해 디버깅 할 수 있습니다. 5) 성능 최적화 방법에는 인덱스의 합리적인 사용, 최적화 된 쿼리 및 캐시 사용이 포함됩니다. 모범 사례에는 거래 사용 및 준비된 체계가 포함됩니다

Redis Exporter 서비스로 Redis 액 적을 모니터링하십시오 Redis Exporter 서비스로 Redis 액 적을 모니터링하십시오 Apr 10, 2025 pm 01:36 PM

Redis 데이터베이스의 효과적인 모니터링은 최적의 성능을 유지하고 잠재적 인 병목 현상을 식별하며 전반적인 시스템 신뢰성을 보장하는 데 중요합니다. Redis Exporter Service는 Prometheus를 사용하여 Redis 데이터베이스를 모니터링하도록 설계된 강력한 유틸리티입니다. 이 튜토리얼은 Redis Exporter Service의 전체 설정 및 구성을 안내하여 모니터링 솔루션을 원활하게 구축 할 수 있도록합니다. 이 자습서를 연구하면 완전히 작동하는 모니터링 설정을 달성 할 수 있습니다.

SQL 데이터베이스 오류를 보는 방법 SQL 데이터베이스 오류를 보는 방법 Apr 10, 2025 pm 12:09 PM

SQL 데이터베이스 오류를 보는 방법은 다음과 같습니다. 1. 오류 메시지보기 직접; 2. 표시 오류 및 경고 명령을 사용하십시오. 3. 오류 로그에 액세스; 4. 오류 코드를 사용하여 오류의 원인을 찾으십시오. 5. 데이터베이스 연결 및 쿼리 구문을 확인하십시오. 6. 디버깅 도구를 사용하십시오.

Apache의 데이터베이스에 연결하는 방법 Apache의 데이터베이스에 연결하는 방법 Apr 13, 2025 pm 01:03 PM

Apache는 데이터베이스에 연결하여 다음 단계가 필요합니다. 데이터베이스 드라이버 설치. 연결 풀을 만들려면 Web.xml 파일을 구성하십시오. JDBC 데이터 소스를 작성하고 연결 설정을 지정하십시오. JDBC API를 사용하여 Connections, 명세서 작성, 매개 변수 바인딩, 쿼리 또는 업데이트 실행 및 처리를 포함하여 Java 코드의 데이터베이스에 액세스하십시오.

See all articles