Hive 쿼리 개수 차이: 비어 있지 않은 개수가 총 개수보다 큼
Hive에서는 행 개수 계산과 관련하여 흥미로운 현상을 관찰했습니다. master_id라는 필드를 포함하는 mytable이라는 테이블이 있다고 가정합니다. 다음 쿼리가 실행되면 검색된 총 행 수는 1,129,563입니다.
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable;</code>
그러나 비어 있지 않은 master_id 값이 있는 행 수를 쿼리하면 개수가 1,134,041로 증가합니다.
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL;</code>
이러한 차이는 기본적으로 WHERE 절이 없는 쿼리가 통계를 사용하여 행 수를 추정할 수 있기 때문에 발생합니다. 이 문제를 해결하려면 hive.compute.query.using.stats
매개변수를 false로 설정하여 통계 추정을 비활성화할 수 있습니다.
또는 ANALYZE TABLE
문을 사용하여 명시적으로 테이블 통계를 계산하거나, INSERT OVERWRITE 작업을 통해 데이터를 대량으로 가져올 때 hive.stats.autogather
을 true로 설정하여 통계를 수집할 수 있습니다. 이렇게 하면 정확하고 일관된 쿼리 결과가 보장되고 이와 같은 예상치 못한 결과가 발생하지 않습니다.
위 내용은 내 Hive COUNT(*) 쿼리가 NULL이 아닌 개수 쿼리보다 더 적은 수의 행을 표시하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!