Wie wählt man effizient zufällige Zeilen aus großen PostgreSQL-Tabellen aus?-MySQL-Tutorial-php.cn

Heim

Datenbank

MySQL-Tutorial

Wie wählt man effizient zufällige Zeilen aus großen PostgreSQL-Tabellen aus?

Barbara Streisand

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL-Methode zur zufälligen Zeilenauswahl

Herkömmliche Methoden zur zufälligen Zeilenauswahl sind ineffizient und langsam, wenn es um große Tabellen mit Millionen oder sogar Milliarden von Datensätzen geht. Zwei gängige Methoden sind:

Verwenden Sie random(), um zu filtern:
```
  select * from table where random() < 0.001;
```
Nach dem Login kopieren
Verwenden Sie order by random() und limit:
```
  select * from table order by random() limit 1000;
```
Nach dem Login kopieren

Da jedoch ein vollständiger Tabellenscan oder eine vollständige Tabellensortierung erforderlich ist, sind diese Methoden nicht die beste Wahl für Tabellen mit einer großen Anzahl von Zeilen und führen zu Leistungsengpässen.

Optimierungsmethoden für große Tabellen

Für die folgenden Tabellentypen sollten Sie die folgende Optimierungsmethode in Betracht ziehen, die deutlich schneller ist:

Numerische ID-Spalten mit kleinen oder mittleren Lücken (indiziert für schnellere Suchvorgänge)
Keine oder nur minimale Schreibvorgänge während der Auswahl

Abfrage:

WITH params AS (
  SELECT 1 AS min_id, -- 可选：自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围（最大ID - 最小ID + 缓冲）
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;

Nach dem Login kopieren

So funktioniert es:

ID-Bereichsschätzung:
- Wenn Sie nicht genau wissen, fragen Sie die Tabelle ab, um die minimale, maximale und Gesamtspanne (max. - min.) der ID-Spalte abzuschätzen.
Zufällige ID-Generierung:
- Generieren Sie einen anderen Satz Zufallszahlen innerhalb des geschätzten ID-Bereichs.
Redundanz und Duplikatbeseitigung:
- Gruppieren Sie die generierten Zahlen, um Duplikate zu entfernen und so die Möglichkeit zu verringern, fehlende oder bereits ausgewählte Zeilen auszuwählen.
Tabellenverknüpfungen und Einschränkungen:
- Verknüpfen Sie die Zufallszahlen mit der tatsächlichen Tabelle mithilfe der ID-Spalte (muss indiziert sein). Dieser effiziente Join ruft die entsprechenden Daten für die ausgewählte Zeile ab.
- Zuletzt wenden Sie ein Limit an, um die erforderliche Anzahl an Zeilen abzurufen.

Warum es schnell ist:

Minimale Indexnutzung:
- Die Abfrage führt nur einen Indexscan für die ID-Spalte durch, was viel schneller ist als ein vollständiger Tabellenscan oder Sortiervorgang.
Optimierte Zufallszahlengenerierung:
- Die generierten Zufallszahlen werden über den geschätzten ID-Bereich verteilt, wodurch die Möglichkeit fehlender oder überlappender Zeilen minimiert wird.
Redundanz und Duplikatbeseitigung:
- Durch die Gruppierung der generierten Zahlen wird sichergestellt, dass nur unterschiedliche Zeilen ausgewählt werden, wodurch die Notwendigkeit einer zusätzlichen Filterung oder Verknüpfung zur Eliminierung von Duplikaten verringert wird.

Weitere Optionen:

Rekursiver CTE zur Behandlung von Lücken:
- Fügen Sie für Tabellen mit Lücken in der ID-Sequenz einen zusätzlichen CTE hinzu, um diese Lücken zu schließen.
Funktions-Wrapper zur Wiederverwendung:
- Definieren Sie eine Funktion, die Grenzwert und Lückenprozentsatz als Parameter verwendet, was eine einfache Konfiguration und Wiederverwendung mit verschiedenen Tabellen ermöglicht.
Universelle Funktionen für jeden Tisch:
- Erstellen Sie eine generische Funktion, die jede Tabelle mit ganzzahligen Spalten als Parameter akzeptiert.
Ansichten materialisieren, um die Geschwindigkeit zu erhöhen:
- Erwägen Sie die Erstellung einer materialisierten Ansicht basierend auf einer optimierten Abfrage, um (quasi) zufällig ausgewählte Zeilen schneller abzurufen.
TABLE SAMPLE in PostgreSQL 9.5:
- Nutzen Sie die „TABLE SAMPLE SYSTEM“-Funktion von PostgreSQL, um eine schnellere, aber weniger zufällige Zeilenstichprobenmethode zu implementieren und sicherzustellen, dass eine genaue Anzahl von Zeilen zurückgegeben wird. Beachten Sie jedoch, dass die Stichprobe aufgrund von Clustereffekten möglicherweise nicht völlig zufällig ist.

Das obige ist der detaillierte Inhalt vonWie wählt man effizient zufällige Zeilen aus großen PostgreSQL-Tabellen aus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1672

CakePHP-Tutorial

1428

Laravel-Tutorial

1332

PHP-Tutorial

1276

C#-Tutorial

1256

Related knowledge

MySQLs Rolle: Datenbanken in Webanwendungen Apr 17, 2025 am 12:23 AM

Die Hauptaufgabe von MySQL in Webanwendungen besteht darin, Daten zu speichern und zu verwalten. 1.Mysql verarbeitet effizient Benutzerinformationen, Produktkataloge, Transaktionsunterlagen und andere Daten. 2. Durch die SQL -Abfrage können Entwickler Informationen aus der Datenbank extrahieren, um dynamische Inhalte zu generieren. 3.Mysql arbeitet basierend auf dem Client-Server-Modell, um eine akzeptable Abfragegeschwindigkeit sicherzustellen.

Erläutern Sie die Rolle von InnoDB -Wiederherstellung von Protokollen und Rückgängigscheinen. Apr 15, 2025 am 12:16 AM

InnoDB verwendet Redologs und undologische, um Datenkonsistenz und Zuverlässigkeit zu gewährleisten. 1.REDOLOogen zeichnen Datenseitenänderung auf, um die Wiederherstellung und die Durchführung der Crash -Wiederherstellung und der Transaktion sicherzustellen. 2.Strundologs zeichnet den ursprünglichen Datenwert auf und unterstützt Transaktionsrollback und MVCC.

MySQL gegen andere Programmiersprachen: Ein Vergleich Apr 19, 2025 am 12:22 AM

Im Vergleich zu anderen Programmiersprachen wird MySQL hauptsächlich zum Speichern und Verwalten von Daten verwendet, während andere Sprachen wie Python, Java und C für die logische Verarbeitung und Anwendungsentwicklung verwendet werden. MySQL ist bekannt für seine hohe Leistung, Skalierbarkeit und plattformübergreifende Unterstützung, die für Datenverwaltungsanforderungen geeignet sind, während andere Sprachen in ihren jeweiligen Bereichen wie Datenanalysen, Unternehmensanwendungen und Systemprogramme Vorteile haben.

MySQL für Anfänger: Erste Schritte mit der Datenbankverwaltung Apr 18, 2025 am 12:10 AM

Zu den grundlegenden Operationen von MySQL gehört das Erstellen von Datenbanken, Tabellen und die Verwendung von SQL zur Durchführung von CRUD -Operationen für Daten. 1. Erstellen Sie eine Datenbank: createdatabasemy_first_db; 2. Erstellen Sie eine Tabelle: CreateTableBooks (IDINGAUTO_INCRECTIONPRIMARYKEY, Titelvarchar (100) Notnull, AuthorVarchar (100) Notnull, veröffentlicht_yearint); 3.. Daten einfügen: InsertIntoBooks (Titel, Autor, veröffentlicht_year) va

Erläutern Sie den InnoDB -Pufferpool und seine Bedeutung für die Leistung. Apr 19, 2025 am 12:24 AM

InnoDbbufferpool reduziert die Scheiben -E/A durch Zwischenspeicherung von Daten und Indizieren von Seiten und Verbesserung der Datenbankleistung. Das Arbeitsprinzip umfasst: 1. Daten lesen: Daten von Bufferpool lesen; 2. Daten schreiben: Schreiben Sie nach der Änderung der Daten an Bufferpool und aktualisieren Sie sie regelmäßig auf Festplatte. 3. Cache -Management: Verwenden Sie den LRU -Algorithmus, um Cache -Seiten zu verwalten. 4. Lesemechanismus: Last benachbarte Datenseiten im Voraus. Durch die Größe des Bufferpool und die Verwendung mehrerer Instanzen kann die Datenbankleistung optimiert werden.

MySQL gegen andere Datenbanken: Vergleich der Optionen Apr 15, 2025 am 12:08 AM

MySQL eignet sich für Webanwendungen und Content -Management -Systeme und ist beliebt für Open Source, hohe Leistung und Benutzerfreundlichkeit. 1) Im Vergleich zu Postgresql führt MySQL in einfachen Abfragen und hohen gleichzeitigen Lesevorgängen besser ab. 2) Im Vergleich zu Oracle ist MySQL aufgrund seiner Open Source und niedrigen Kosten bei kleinen und mittleren Unternehmen beliebter. 3) Im Vergleich zu Microsoft SQL Server eignet sich MySQL besser für plattformübergreifende Anwendungen. 4) Im Gegensatz zu MongoDB eignet sich MySQL besser für strukturierte Daten und Transaktionsverarbeitung.

MySQL: Strukturierte Daten und relationale Datenbanken Apr 18, 2025 am 12:22 AM

MySQL verwaltet strukturierte Daten effizient durch Tabellenstruktur und SQL-Abfrage und implementiert Inter-Tisch-Beziehungen durch Fremdschlüssel. 1. Definieren Sie beim Erstellen einer Tabelle das Datenformat und das Typ. 2. Verwenden Sie fremde Schlüssel, um Beziehungen zwischen Tabellen aufzubauen. 3.. Verbessern Sie die Leistung durch Indexierung und Abfrageoptimierung. 4. regelmäßig Sicherung und Überwachung von Datenbanken, um die Datensicherheit und die Leistungsoptimierung der Daten zu gewährleisten.

Lernen von MySQL: Eine Schritt-für-Schritt-Anleitung für neue Benutzer Apr 19, 2025 am 12:19 AM

MySQL ist es wert, gelernt zu werden, da es sich um ein leistungsstarkes Open -Source -Datenbankverwaltungssystem handelt, das für Datenspeicher, Verwaltung und Analyse geeignet ist. 1) MySQL ist eine relationale Datenbank, die SQL zum Betrieb von Daten verwendet und für die strukturierte Datenverwaltung geeignet ist. 2) Die SQL -Sprache ist der Schlüssel zur Interaktion mit MySQL und unterstützt CRUD -Operationen. 3) Das Arbeitsprinzip von MySQL umfasst Client/Server -Architektur, Speicher -Engine und Abfrageoptimierer. 4) Die grundlegende Nutzung umfasst das Erstellen von Datenbanken und Tabellen, und die erweiterte Verwendung umfasst das Verbinden von Tabellen mit dem Join. 5) Zu den häufigen Fehlern gehören Syntaxfehler und Erlaubnisprobleme, und die Debugging -Fähigkeiten umfassen die Überprüfung der Syntax und die Verwendung von Erklärungskenntnissen. 6) Die Leistungsoptimierung umfasst die Verwendung von Indizes, die Optimierung von SQL -Anweisungen und die regelmäßige Wartung von Datenbanken.

See all articles