ホームページ > データベース > mysql チュートリアル > Hive COUNT(*) クエリが WHERE 句に応じて異なる行数を返すのはなぜですか?

Hive COUNT(*) クエリが WHERE 句に応じて異なる行数を返すのはなぜですか?

Linda Hamilton
リリース: 2025-01-12 06:09:46
オリジナル
378 人が閲覧しました

Why Does My Hive COUNT(*) Query Return Different Row Counts Depending on the WHERE Clause?

*Hive COUNT() クエリの結果は WHERE 句によって異なります**

Hive テーブルを使用する場合、NULL 値の有無にかかわらず行をカウントするときに予期しない動作が発生する可能性があります。この違いはクエリ統計によって説明できます。

Hive がテーブル内にクエリ統計の存在を検出した場合、この情報を使用してクエリのパフォーマンスを最適化することがあります。 WHERE 句を使用せずにクエリを実行する場合、たとえば:

<code class="language-sql">SELECT COUNT(*) AS c FROM mytable</code>
ログイン後にコピー

Hive はこれらの統計を使用して、実際にデータを読み取ることなくテーブル内の行数を推定することがあります。統計が最新でない場合、不正確な結果が生じる可能性があります。

対照的に、NULL 以外の条件を指定して WHERE 句を追加する場合は、次のようになります。

<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL</code>
ログイン後にコピー

Hive は、空の master_id 値を持つ行を除外するためにデータを強制的に読み取ります。この正確な数は、統計情報に基づいて推定された数よりも高くなる可能性があります。

この動作を回避し、正確な行数を確保するには、次のように設定して統計ベースのクエリの最適化を無効にします。

<code class="language-sql">SET hive.compute.query.using.stats=false;</code>
ログイン後にコピー

あるいは、ANALYZE TABLE コマンドを使用してテーブルを明示的に分析し、統計を更新することもできます。次のように設定することもできます:

<code class="language-sql">SET hive.stats.autogather=true;</code>
ログイン後にコピー

これにより、INSERT OVERWRITE 操作中に統計が自動的に収集され、統計が最新の状態に保たれ、行数の差が減少します。

以上がHive COUNT(*) クエリが WHERE 句に応じて異なる行数を返すのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート