> 데이터 베이스 > MySQL 튜토리얼 > 내 Hive COUNT(*) 쿼리가 WHERE 절에 따라 다른 행 개수를 반환하는 이유는 무엇입니까?

내 Hive COUNT(*) 쿼리가 WHERE 절에 따라 다른 행 개수를 반환하는 이유는 무엇입니까?

Linda Hamilton
풀어 주다: 2025-01-12 06:09:46
원래의
336명이 탐색했습니다.

Why Does My Hive COUNT(*) Query Return Different Row Counts Depending on the WHERE Clause?

*Hive COUNT() 쿼리 결과는 WHERE 절에 따라 달라집니다**

Hive 테이블을 사용할 때 Null 값이 있거나 없는 행을 계산할 때 예기치 않은 동작이 발생할 수 있습니다. 이 차이는 쿼리 통계로 설명할 수 있습니다.

Hive가 테이블에 쿼리 통계가 있음을 감지하면 이 정보를 사용하여 쿼리 성능을 최적화할 수 있습니다. WHERE 절 없이 쿼리를 실행하는 경우 예:

<code class="language-sql">SELECT COUNT(*) AS c FROM mytable</code>
로그인 후 복사

Hive는 실제로 데이터를 읽지 않고도 이러한 통계를 사용하여 테이블의 행 수를 추정할 수 있습니다. 통계가 최신이 아닐 경우 부정확한 결과가 나올 수 있습니다.

반대로 null이 아닌 조건으로 WHERE 절을 추가하는 경우는 다음과 같습니다.

<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL</code>
로그인 후 복사

Hive는 master_id 값이 비어 있는 행을 필터링하기 위해 데이터를 강제로 읽어야 합니다. 이 정확한 수치는 통계 정보를 바탕으로 추정한 수치보다 높을 수 있습니다.

이러한 동작을 방지하고 정확한 행 수를 보장하려면 다음을 설정하여 통계 기반 쿼리 최적화를 비활성화할 수 있습니다.

<code class="language-sql">SET hive.compute.query.using.stats=false;</code>
로그인 후 복사

또는 ANALYZE TABLE 명령을 사용하여 테이블을 명시적으로 분석하여 통계를 업데이트할 수도 있습니다. 다음을 설정할 수도 있습니다.

<code class="language-sql">SET hive.stats.autogather=true;</code>
로그인 후 복사

INSERT OVERWRITE 작업 중에 자동으로 통계를 수집하여 최신 상태로 유지하고 행 수 차이를 줄입니다.

위 내용은 내 Hive COUNT(*) 쿼리가 WHERE 절에 따라 다른 행 개수를 반환하는 이유는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿