*Hive COUNT() 쿼리 결과는 WHERE 절에 따라 달라집니다**
Hive 테이블을 사용할 때 Null 값이 있거나 없는 행을 계산할 때 예기치 않은 동작이 발생할 수 있습니다. 이 차이는 쿼리 통계로 설명할 수 있습니다.
Hive가 테이블에 쿼리 통계가 있음을 감지하면 이 정보를 사용하여 쿼리 성능을 최적화할 수 있습니다. WHERE 절 없이 쿼리를 실행하는 경우 예:
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable</code>
Hive는 실제로 데이터를 읽지 않고도 이러한 통계를 사용하여 테이블의 행 수를 추정할 수 있습니다. 통계가 최신이 아닐 경우 부정확한 결과가 나올 수 있습니다.
반대로 null이 아닌 조건으로 WHERE 절을 추가하는 경우는 다음과 같습니다.
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL</code>
Hive는 master_id 값이 비어 있는 행을 필터링하기 위해 데이터를 강제로 읽어야 합니다. 이 정확한 수치는 통계 정보를 바탕으로 추정한 수치보다 높을 수 있습니다.
이러한 동작을 방지하고 정확한 행 수를 보장하려면 다음을 설정하여 통계 기반 쿼리 최적화를 비활성화할 수 있습니다.
<code class="language-sql">SET hive.compute.query.using.stats=false;</code>
또는 ANALYZE TABLE 명령을 사용하여 테이블을 명시적으로 분석하여 통계를 업데이트할 수도 있습니다. 다음을 설정할 수도 있습니다.
<code class="language-sql">SET hive.stats.autogather=true;</code>
INSERT OVERWRITE 작업 중에 자동으로 통계를 수집하여 최신 상태로 유지하고 행 수 차이를 줄입니다.
위 내용은 내 Hive COUNT(*) 쿼리가 WHERE 절에 따라 다른 행 개수를 반환하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!