MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?-MySQL 튜토리얼-php.cn

MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?

Patricia Arquette

풀어 주다： 2025-01-05 16:03:43

원래의

587명이 탐색했습니다.

How to Efficiently Perform Simple Random Sampling in MySQL?

MySQL의 효율적인 단순 무작위 샘플링

많은 애플리케이션에는 대규모 데이터베이스 테이블에서 단순 무작위 샘플을 추출하는 기능이 필요합니다. 그러나 겉보기에 직관적인 SELECT * FROM table ORDER BY RAND() LIMIT 10000 방법을 사용하면 수백만 개의 행이 있는 테이블의 경우 엄청나게 느려질 수 있습니다.

더 빠른 솔루션

보다 효율적인 접근 방식은 rand() 함수를 사용하여 각 행에 임의의 숫자를 할당한 다음 이를 기반으로 테이블을 필터링하는 것입니다. number:

SELECT * FROM table WHERE rand() <= 0.3

로그인 후 복사

작동 방식

이 방법은 각 행에 대해 0과 1 사이의 난수를 생성합니다. 이 숫자가 0.3(30%)보다 작거나 같으면 해당 행이 샘플로 선택됩니다.

장점

O(n) 복잡도 , 정렬할 필요 없이
MySQL에 내장된 rand() 함수를 활용하여 효율적인 숫자 계산 세대

개선된 버전

효율성을 더욱 높이려면 원하는 샘플 크기의 2~5배로 행을 샘플링하고 그런 다음 결과를 원하는 크기로 자릅니다.

SELECT COUNT(*) FROM table; -- Use this to determine rand_low and rand_high

SELECT *
FROM table
WHERE frozen_rand BETWEEN %(rand_low)s AND %(rand_high)s
ORDER BY RAND() LIMIT 1000

로그인 후 복사

이 방법은 인덱스 스캔을 사용하여 데이터를 정렬하기 전에 정리하여 큰 테이블에 적합합니다.

위 내용은 MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!