


Pourquoi l'ajout d'une clause « WHERE master_id IS NOT NULL » augmente-t-il le « COUNT(*) » dans Hive ?
Exception du nombre de ruches : la clause WHERE entraîne une augmentation du nombre
Lors de l'exploration des données Hive, un phénomène étrange a été observé. En comptant à l’aide de la simple instruction select count(*) as c from mytable
, le résultat est 1 129 563. Cependant, l’ajout du filtre select count(*) as c from mytable where master_id is not null
a augmenté de manière inattendue le nombre à 1 134 041.
Une enquête plus approfondie a révélé que la colonne master_id
contenait toujours des valeurs non nulles. Cela nous amène à une question : comment expliquer que la mise en œuvre de la condition d’exclusion des valeurs nulles augmente réellement le nombre de lignes ?
Explication possible : statistiques de la ruche
La réponse réside dans la compréhension de l'impact des statistiques Hive. Par défaut, Hive utilise des statistiques pour optimiser les requêtes et améliorer les performances. Lors de l'exécution d'une requête select count(*) as c from mytable
(sans aucun filtrage), Hive peut s'appuyer sur les statistiques stockées pour estimer le nombre. Cependant, ces statistiques ne sont pas toujours exactes ou à jour.
Dans ce cas, les statistiques peuvent indiquer que de nombreuses lignes dans la colonne master_id
contiennent des valeurs nulles. Lors de l'ajout du filtre master_id is not null
, Hive a réévalué les statistiques et a reconnu que la plupart des lignes contenaient des valeurs non nulles. Cela permet d'obtenir un décompte plus précis, éliminant les écarts notables.
Méthodes pour résoudre le problème
Pour obtenir un décompte précis, notamment lorsque vous travaillez avec des tableaux qui ont été considérablement modifiés ou qui n'ont pas été analysés récemment, il est recommandé :
-
Désactiver les statistiques : Définissez
hive.compute.query.using.stats=false
pour empêcher Hive d'utiliser les statistiques et forcer une analyse complète de la table. -
Collecter des statistiques : Utilisez la commande
ANALYZE TABLE
pour mettre à jour manuellement les statistiques du tableau et garantir leur exactitude. -
Activer la collecte automatique de statistiques : Configurez
hive.stats.autogather=true
pour collecter automatiquement des statistiques lors d'opérations de données telles queINSERT OVERWRITE
.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Le rôle principal de MySQL dans les applications Web est de stocker et de gérer les données. 1.MySQL traite efficacement les informations utilisateur, les catalogues de produits, les enregistrements de transaction et autres données. 2. Grâce à SQL Query, les développeurs peuvent extraire des informations de la base de données pour générer du contenu dynamique. 3.MySQL fonctionne basé sur le modèle client-serveur pour assurer une vitesse de requête acceptable.

INNODB utilise des redologues et des undologs pour assurer la cohérence et la fiabilité des données. 1. REDOLOGIE RÉCLABLIER MODIFICATION DE PAGE DES DONNÉES Pour assurer la récupération des accidents et la persistance des transactions. 2.Undologs Enregistre la valeur des données d'origine et prend en charge le Rollback de la transaction et MVCC.

Par rapport à d'autres langages de programmation, MySQL est principalement utilisé pour stocker et gérer les données, tandis que d'autres langages tels que Python, Java et C sont utilisés pour le traitement logique et le développement d'applications. MySQL est connu pour ses performances élevées, son évolutivité et son support multiplateforme, adapté aux besoins de gestion des données, tandis que d'autres langues présentent des avantages dans leurs domaines respectifs tels que l'analyse des données, les applications d'entreprise et la programmation système.

Les opérations de base de MySQL incluent la création de bases de données, les tables et l'utilisation de SQL pour effectuer des opérations CRUD sur les données. 1. Créez une base de données: CreatedAtAbaseMy_First_DB; 2. Créez un tableau: CreateTableBooks (idIntauto_inCmentPrimaryKey, TitleVarchar (100) notnull, AuthorVarchar (100) notnull, publied_yearint); 3. Données d'insertion: INSERTINTOBOOKS (titre, auteur, publié_year) VA

MySQL convient aux applications Web et aux systèmes de gestion de contenu et est populaire pour son open source, ses performances élevées et sa facilité d'utilisation. 1) Par rapport à PostgreSQL, MySQL fonctionne mieux dans les requêtes simples et les opérations de lecture simultanées élevées. 2) Par rapport à Oracle, MySQL est plus populaire parmi les petites et moyennes entreprises en raison de son open source et de son faible coût. 3) Par rapport à Microsoft SQL Server, MySQL est plus adapté aux applications multiplateformes. 4) Contrairement à MongoDB, MySQL est plus adapté aux données structurées et au traitement des transactions.

InnodBBufferPool réduit les E / S de disque en mettant en cache des données et des pages d'indexation, améliorant les performances de la base de données. Son principe de travail comprend: 1. La lecture des données: lire les données de BufferPool; 2. Écriture de données: Après avoir modifié les données, écrivez dans BufferPool et actualisez-les régulièrement sur le disque; 3. Gestion du cache: utilisez l'algorithme LRU pour gérer les pages de cache; 4. Mécanisme de lecture: Chargez à l'avance des pages de données adjacentes. En dimensionner le tampon et en utilisant plusieurs instances, les performances de la base de données peuvent être optimisées.

MySQL gère efficacement les données structurées par la structure de la table et la requête SQL, et met en œuvre des relations inter-tableaux à travers des clés étrangères. 1. Définissez le format de données et tapez lors de la création d'une table. 2. Utilisez des clés étrangères pour établir des relations entre les tables. 3. Améliorer les performances par l'indexation et l'optimisation des requêtes. 4. Bases de données régulièrement sauvegarde et surveillent régulièrement la sécurité des données et l'optimisation des performances.

MySQL vaut la peine d'être appris car il s'agit d'un puissant système de gestion de la base de données open source adapté au stockage, à la gestion et à l'analyse des données. 1) MySQL est une base de données relationnelle qui utilise SQL pour faire fonctionner les données et convient à la gestion structurée des données. 2) Le langage SQL est la clé pour interagir avec MySQL et prend en charge les opérations CRUD. 3) Le principe de travail de MySQL inclut l'architecture client / serveur, le moteur de stockage et l'optimiseur de requête. 4) L'utilisation de base comprend la création de bases de données et de tables, et l'utilisation avancée implique de rejoindre des tables à l'aide de la jointure. 5) Les erreurs courantes incluent les erreurs de syntaxe et les problèmes d'autorisation, et les compétences de débogage incluent la vérification de la syntaxe et l'utilisation des commandes Explication. 6) L'optimisation des performances implique l'utilisation d'index, l'optimisation des instructions SQL et la maintenance régulière des bases de données.
