> 데이터 베이스 > MySQL 튜토리얼 > MySQL에서 단순 무작위 샘플링을 효율적으로 수행하려면 어떻게 해야 합니까?

MySQL에서 단순 무작위 샘플링을 효율적으로 수행하려면 어떻게 해야 합니까?

Patricia Arquette
풀어 주다: 2025-01-05 21:01:42
원래의
589명이 탐색했습니다.

How Can I Efficiently Perform Simple Random Sampling in MySQL?

MySQL 데이터베이스의 효율적인 단순 무작위 샘플링

통계 분석이나 추가 처리를 위한 하위 샘플링을 위해 대규모 데이터베이스의 데이터 샘플링이 필요한 경우가 많습니다. 일반적으로 직면하는 문제 중 하나는 수백만 개의 행이 포함된 MySQL 데이터베이스에서 간단한 무작위 샘플을 선택하는 것입니다.

SELECT * FROM table ORDER BY RAND() LIMIT 10000의 순진한 접근 방식은 다음의 필요성으로 인해 상당한 성능 오버헤드가 있습니다. 전체 테이블을 정렬합니다. 테이블 크기가 증가함에 따라 이 접근 방식은 엄청나게 느려집니다.

효율적인 솔루션

보다 효율적인 접근 방식은 MySQL의 난수 생성 기능을 활용하는 것입니다. SELECT * FROM table WHERE rand() <= .3 쿼리는 간단한 솔루션을 제공합니다.

  • rand(): 0과 1 사이의 임의 부동 소수점을 생성합니다.
  • < = .3: 난수가 0.3보다 작거나 같은 행을 필터링하여 대략 30%의 샘플을 효과적으로 선택합니다. table.

이 접근 방식에는 여러 가지 장점이 있습니다.

  • O(n) 복잡성: 정렬이 필요 없이 테이블을 한 번만 반복합니다.
  • 균일 분포: rand()는 균일 분포로 숫자를 생성합니다. 전체 테이블을 공정하게 표현합니다.
  • MySQL 최적화: MySQL은 난수를 효율적으로 생성하는 데 최적화되어 있습니다.

테이블의 더 큰 하위 집합( 예를 들어 원하는 샘플 크기의 2~5배), 삽입 또는 업데이트 시 임의의 열을 인덱싱한 다음 해당 인덱스를 필터링하면 샘플링을 더욱 최적화할 수 있습니다. 프로세스. 이 방법은 인덱스 스캔 성능의 이점을 제공하고 샘플 크기의 정밀도를 높일 수 있습니다.

요약하면 SELECT * FROM table WHERE rand() <= .3 쿼리는 효율적이고 정확한 추출 방법을 제공합니다. MySQL 테이블의 간단한 무작위 샘플입니다. 이 접근 방식은 수백만 개 이상의 행을 포함하는 데이터세트에 특히 적합합니다.

위 내용은 MySQL에서 단순 무작위 샘플링을 효율적으로 수행하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿