*Hive COUNT() クエリの結果は WHERE 句によって異なります**
Hive テーブルを使用する場合、NULL 値の有無にかかわらず行をカウントするときに予期しない動作が発生する可能性があります。この違いはクエリ統計によって説明できます。
Hive がテーブル内にクエリ統計の存在を検出した場合、この情報を使用してクエリのパフォーマンスを最適化することがあります。 WHERE 句を使用せずにクエリを実行する場合、たとえば:
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable</code>
Hive はこれらの統計を使用して、実際にデータを読み取ることなくテーブル内の行数を推定することがあります。統計が最新でない場合、不正確な結果が生じる可能性があります。
対照的に、NULL 以外の条件を指定して WHERE 句を追加する場合は、次のようになります。
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL</code>
Hive は、空の master_id 値を持つ行を除外するためにデータを強制的に読み取ります。この正確な数は、統計情報に基づいて推定された数よりも高くなる可能性があります。
この動作を回避し、正確な行数を確保するには、次のように設定して統計ベースのクエリの最適化を無効にします。
<code class="language-sql">SET hive.compute.query.using.stats=false;</code>
あるいは、ANALYZE TABLE コマンドを使用してテーブルを明示的に分析し、統計を更新することもできます。次のように設定することもできます:
<code class="language-sql">SET hive.stats.autogather=true;</code>
これにより、INSERT OVERWRITE 操作中に統計が自動的に収集され、統計が最新の状態に保たれ、行数の差が減少します。
以上がHive COUNT(*) クエリが WHERE 句に応じて異なる行数を返すのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。