


Warum erhöht das Hinzufügen einer „WHERE master_id IS NOT NULL'-Klausel den „COUNT(*)'-Wert in Hive?
Hive-Anzahl-Ausnahme: WHERE-Klausel führt zu einer Erhöhung der Anzahl
Während der Hive-Datenerkundung wurde ein seltsames Phänomen beobachtet. Beim Zählen mit der einfachen Anweisung select count(*) as c from mytable
beträgt das Ergebnis 1.129.563. Durch das Hinzufügen des Filters select count(*) as c from mytable where master_id is not null
wurde die Anzahl jedoch unerwartet auf 1.134.041 erhöht.
Weitere Untersuchungen ergaben, dass die Spalte master_id
immer Werte ungleich Null enthielt. Dies führt zu einer Frage: Wie lässt sich erklären, dass die Implementierung der Nullwert-Ausschlussbedingung tatsächlich die Anzahl der Zeilen erhöht?
Mögliche Erklärung: Bienenstockstatistik
Die Antwort liegt im Verständnis der Auswirkungen von Hive-Statistiken. Standardmäßig verwendet Hive Statistiken, um Abfragen zu optimieren und die Leistung zu verbessern. Beim Ausführen einer select count(*) as c from mytable
-Abfrage (ohne Filterung) kann Hive zur Schätzung der Anzahl auf gespeicherte Statistiken zurückgreifen. Allerdings sind diese Statistiken nicht immer korrekt oder aktuell.
In diesem Fall kann die Statistik darauf hinweisen, dass es in der Spalte master_id
viele Zeilen gibt, die Nullwerte enthalten. Beim Hinzufügen des Filters master_id is not null
hat Hive die Statistiken neu ausgewertet und festgestellt, dass die meisten Zeilen Nicht-Null-Werte enthielten. Dies führt zu einer genaueren Zählung und eliminiert spürbare Abweichungen.
Methoden zur Lösung des Problems
Um eine genaue Zählung zu erhalten, insbesondere wenn Sie mit Tabellen arbeiten, die erheblich geändert wurden oder kürzlich nicht analysiert wurden, wird Folgendes empfohlen:
-
Statistiken deaktivieren: Legen Sie
hive.compute.query.using.stats=false
fest, um zu verhindern, dass Hive Statistiken verwendet, und erzwingen Sie einen vollständigen Tabellenscan. -
Statistiken sammeln: Verwenden Sie den Befehl
ANALYZE TABLE
, um Tabellenstatistiken manuell zu aktualisieren und deren Genauigkeit sicherzustellen. -
Automatische Statistikerfassung aktivieren: Stellen Sie
hive.stats.autogather=true
so ein, dass bei Datenvorgängen wieINSERT OVERWRITE
automatisch Statistiken erfasst werden.
Das obige ist der detaillierte Inhalt vonWarum erhöht das Hinzufügen einer „WHERE master_id IS NOT NULL'-Klausel den „COUNT(*)'-Wert in Hive?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen











Die Hauptaufgabe von MySQL in Webanwendungen besteht darin, Daten zu speichern und zu verwalten. 1.Mysql verarbeitet effizient Benutzerinformationen, Produktkataloge, Transaktionsunterlagen und andere Daten. 2. Durch die SQL -Abfrage können Entwickler Informationen aus der Datenbank extrahieren, um dynamische Inhalte zu generieren. 3.Mysql arbeitet basierend auf dem Client-Server-Modell, um eine akzeptable Abfragegeschwindigkeit sicherzustellen.

InnoDB verwendet Redologs und undologische, um Datenkonsistenz und Zuverlässigkeit zu gewährleisten. 1.REDOLOogen zeichnen Datenseitenänderung auf, um die Wiederherstellung und die Durchführung der Crash -Wiederherstellung und der Transaktion sicherzustellen. 2.Strundologs zeichnet den ursprünglichen Datenwert auf und unterstützt Transaktionsrollback und MVCC.

Im Vergleich zu anderen Programmiersprachen wird MySQL hauptsächlich zum Speichern und Verwalten von Daten verwendet, während andere Sprachen wie Python, Java und C für die logische Verarbeitung und Anwendungsentwicklung verwendet werden. MySQL ist bekannt für seine hohe Leistung, Skalierbarkeit und plattformübergreifende Unterstützung, die für Datenverwaltungsanforderungen geeignet sind, während andere Sprachen in ihren jeweiligen Bereichen wie Datenanalysen, Unternehmensanwendungen und Systemprogramme Vorteile haben.

Zu den grundlegenden Operationen von MySQL gehört das Erstellen von Datenbanken, Tabellen und die Verwendung von SQL zur Durchführung von CRUD -Operationen für Daten. 1. Erstellen Sie eine Datenbank: createdatabasemy_first_db; 2. Erstellen Sie eine Tabelle: CreateTableBooks (IDINGAUTO_INCRECTIONPRIMARYKEY, Titelvarchar (100) Notnull, AuthorVarchar (100) Notnull, veröffentlicht_yearint); 3.. Daten einfügen: InsertIntoBooks (Titel, Autor, veröffentlicht_year) va

MySQL eignet sich für Webanwendungen und Content -Management -Systeme und ist beliebt für Open Source, hohe Leistung und Benutzerfreundlichkeit. 1) Im Vergleich zu Postgresql führt MySQL in einfachen Abfragen und hohen gleichzeitigen Lesevorgängen besser ab. 2) Im Vergleich zu Oracle ist MySQL aufgrund seiner Open Source und niedrigen Kosten bei kleinen und mittleren Unternehmen beliebter. 3) Im Vergleich zu Microsoft SQL Server eignet sich MySQL besser für plattformübergreifende Anwendungen. 4) Im Gegensatz zu MongoDB eignet sich MySQL besser für strukturierte Daten und Transaktionsverarbeitung.

InnoDbbufferpool reduziert die Scheiben -E/A durch Zwischenspeicherung von Daten und Indizieren von Seiten und Verbesserung der Datenbankleistung. Das Arbeitsprinzip umfasst: 1. Daten lesen: Daten von Bufferpool lesen; 2. Daten schreiben: Schreiben Sie nach der Änderung der Daten an Bufferpool und aktualisieren Sie sie regelmäßig auf Festplatte. 3. Cache -Management: Verwenden Sie den LRU -Algorithmus, um Cache -Seiten zu verwalten. 4. Lesemechanismus: Last benachbarte Datenseiten im Voraus. Durch die Größe des Bufferpool und die Verwendung mehrerer Instanzen kann die Datenbankleistung optimiert werden.

MySQL verwaltet strukturierte Daten effizient durch Tabellenstruktur und SQL-Abfrage und implementiert Inter-Tisch-Beziehungen durch Fremdschlüssel. 1. Definieren Sie beim Erstellen einer Tabelle das Datenformat und das Typ. 2. Verwenden Sie fremde Schlüssel, um Beziehungen zwischen Tabellen aufzubauen. 3.. Verbessern Sie die Leistung durch Indexierung und Abfrageoptimierung. 4. regelmäßig Sicherung und Überwachung von Datenbanken, um die Datensicherheit und die Leistungsoptimierung der Daten zu gewährleisten.

MySQL ist es wert, gelernt zu werden, da es sich um ein leistungsstarkes Open -Source -Datenbankverwaltungssystem handelt, das für Datenspeicher, Verwaltung und Analyse geeignet ist. 1) MySQL ist eine relationale Datenbank, die SQL zum Betrieb von Daten verwendet und für die strukturierte Datenverwaltung geeignet ist. 2) Die SQL -Sprache ist der Schlüssel zur Interaktion mit MySQL und unterstützt CRUD -Operationen. 3) Das Arbeitsprinzip von MySQL umfasst Client/Server -Architektur, Speicher -Engine und Abfrageoptimierer. 4) Die grundlegende Nutzung umfasst das Erstellen von Datenbanken und Tabellen, und die erweiterte Verwendung umfasst das Verbinden von Tabellen mit dem Join. 5) Zu den häufigen Fehlern gehören Syntaxfehler und Erlaubnisprobleme, und die Debugging -Fähigkeiten umfassen die Überprüfung der Syntax und die Verwendung von Erklärungskenntnissen. 6) Die Leistungsoptimierung umfasst die Verwendung von Indizes, die Optimierung von SQL -Anweisungen und die regelmäßige Wartung von Datenbanken.
