MySQL의 효율적인 단순 무작위 샘플링
많은 애플리케이션에는 대규모 데이터베이스 테이블에서 단순 무작위 샘플을 추출하는 기능이 필요합니다. 그러나 겉보기에 직관적인 SELECT * FROM table ORDER BY RAND() LIMIT 10000 방법을 사용하면 수백만 개의 행이 있는 테이블의 경우 엄청나게 느려질 수 있습니다.
더 빠른 솔루션
보다 효율적인 접근 방식은 rand() 함수를 사용하여 각 행에 임의의 숫자를 할당한 다음 이를 기반으로 테이블을 필터링하는 것입니다. number:
SELECT * FROM table WHERE rand() <= 0.3
작동 방식
이 방법은 각 행에 대해 0과 1 사이의 난수를 생성합니다. 이 숫자가 0.3(30%)보다 작거나 같으면 해당 행이 샘플로 선택됩니다.
장점
개선된 버전
효율성을 더욱 높이려면 원하는 샘플 크기의 2~5배로 행을 샘플링하고 그런 다음 결과를 원하는 크기로 자릅니다.
SELECT COUNT(*) FROM table; -- Use this to determine rand_low and rand_high SELECT * FROM table WHERE frozen_rand BETWEEN %(rand_low)s AND %(rand_high)s ORDER BY RAND() LIMIT 1000
이 방법은 인덱스 스캔을 사용하여 데이터를 정렬하기 전에 정리하여 큰 테이블에 적합합니다.
위 내용은 MySQL에서 단순 무작위 샘플링을 효율적으로 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!