MySQL 데이터베이스의 효율적인 단순 무작위 샘플링
통계 분석이나 추가 처리를 위한 하위 샘플링을 위해 대규모 데이터베이스의 데이터 샘플링이 필요한 경우가 많습니다. 일반적으로 직면하는 문제 중 하나는 수백만 개의 행이 포함된 MySQL 데이터베이스에서 간단한 무작위 샘플을 선택하는 것입니다.
SELECT * FROM table ORDER BY RAND() LIMIT 10000의 순진한 접근 방식은 다음의 필요성으로 인해 상당한 성능 오버헤드가 있습니다. 전체 테이블을 정렬합니다. 테이블 크기가 증가함에 따라 이 접근 방식은 엄청나게 느려집니다.
효율적인 솔루션
보다 효율적인 접근 방식은 MySQL의 난수 생성 기능을 활용하는 것입니다. SELECT * FROM table WHERE rand() <= .3 쿼리는 간단한 솔루션을 제공합니다.
이 접근 방식에는 여러 가지 장점이 있습니다.
테이블의 더 큰 하위 집합( 예를 들어 원하는 샘플 크기의 2~5배), 삽입 또는 업데이트 시 임의의 열을 인덱싱한 다음 해당 인덱스를 필터링하면 샘플링을 더욱 최적화할 수 있습니다. 프로세스. 이 방법은 인덱스 스캔 성능의 이점을 제공하고 샘플 크기의 정밀도를 높일 수 있습니다.
요약하면 SELECT * FROM table WHERE rand() <= .3 쿼리는 효율적이고 정확한 추출 방법을 제공합니다. MySQL 테이블의 간단한 무작위 샘플입니다. 이 접근 방식은 수백만 개 이상의 행을 포함하는 데이터세트에 특히 적합합니다.
위 내용은 MySQL에서 단순 무작위 샘플링을 효율적으로 수행하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!