Hive クエリ数の差: 空でない数が合計数より大きい
Hive では、行数の計算に関する興味深い現象が観察されました。 mytable という名前のテーブルがあり、それに master_id という名前のフィールドが含まれているとします。次のクエリを実行すると、取得される行の総数は 1,129,563 になります:
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable;</code>
ただし、空ではない master_id 値を持つ行の数をクエリすると、カウントは 1,134,041 に増加します。
<code class="language-sql">SELECT COUNT(*) AS c FROM mytable WHERE master_id IS NOT NULL;</code>
この違いは、デフォルトで WHERE 句のないクエリが統計を使用して行数を推定する可能性があるために発生します。この問題を解決するには、パラメータ hive.compute.query.using.stats
を false に設定して統計的推定を無効にします。
または、ANALYZE TABLE
ステートメントを使用して明示的にテーブル統計を計算するか、INSERT OVERWRITE 操作を介してデータを一括インポートするときに を true に設定して統計を収集することもできます。これにより、正確で一貫したクエリ結果が保証され、このような予期しない結果が回避されます。 hive.stats.autogather
以上がHive COUNT(*) クエリで表示される行数が、NULL 以外の count クエリよりも少ないのはなぜですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。