如何從大型 PostgreSQL 表中有效地選擇隨機行？-mysql教程-PHP中文網

從大型PostgreSQL表中選擇隨機行

方法一：使用 RANDOM() 和 LIMIT

方法二：使用 ORDER BY RANDOM() 和 LIMIT

高效方法：使用數字 ID 欄位和索引

考慮因素與建議

首頁

資料庫

mysql教程

如何從大型 PostgreSQL 表中有效地選擇隨機行？

Linda Hamilton

Jan 21, 2025 am 05:46 AM

How to Efficiently Select Random Rows from a Large PostgreSQL Table?

從大型PostgreSQL表中選擇隨機行

處理大型資料集時，選擇隨機行可能是一項計算密集型任務。本文探討了從包含約 5 億行的表中檢索隨機行的各種方法，並討論了它們的性能和準確性。

方法一：使用 RANDOM() 和 LIMIT

第一種方法包括使用 RANDOM() 函數產生隨機數，然後使用 LIMIT 子句過濾結果以取得所需數量的行。

SELECT * FROM table WHERE RANDOM() < 0.000002 LIMIT 1000;

登入後複製

這種方法的優點是易於實現，但對於大型表來說效率可能很低。由於使用了 LIMIT 子句，資料庫必須掃描表格的全部行才能挑選隨機行並丟棄其餘行。

方法二：使用 ORDER BY RANDOM() 和 LIMIT

另一種方法是先按 RANDOM() 函數對行進行排序，然後使用 LIMIT 子句取得隨機行。

SELECT * FROM table ORDER BY RANDOM() LIMIT 1000;

登入後複製

這種方法與第一種方法類似，但排序保證更有效地選擇隨機行。它減少了所需的掃描次數，使其成為大型表的更好選擇。但是，對於行數極多的表，它仍然不是最佳選擇。

高效方法：使用數字 ID 欄位和索引

對於具有數字 ID 列且間隙較少的表，可以使用更有效的方法。這涉及在 ID 範圍內產生隨機數字並將其用於與表連接。

WITH params AS (
   SELECT 1 AS min_id,              -- 最小 ID <= 当前最小 ID
        5100000 AS id_span             -- 四舍五入。(max_id - min_id + buffer)
    )
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p, generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   table USING (id)
LIMIT  1000;

登入後複製

這種方法利用索引存取來顯著減少所需的掃描次數。它非常適合具有大量行且 ID 列中間隙較少的表。

考慮因素與建議

選擇隨機行的最佳方法取決於特定的表特徵和性能要求。對於小型表，RANDOM() 或 ORDER BY RANDOM() 方法可能就足夠了。但是，對於具有數字 ID 列且間隙較少的大型表，建議使用上述最佳化方法以獲得最佳效能。

要注意的是，由於電腦中偽隨機數產生的性質，這些方法都不能保證真正的隨機性。但是，它們提供了一種從大型表中以合理的效率和準確性獲取隨機行樣本的實用方法。

以上是如何從大型 PostgreSQL 表中有效地選擇隨機行？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1677

CakePHP 教程

1431

Laravel 教程

1334

PHP教程

1280

C# 教程

1257

Related knowledge

MySQL的角色：Web應用程序中的數據庫 Apr 17, 2025 am 12:23 AM

MySQL在Web應用中的主要作用是存儲和管理數據。 1.MySQL高效處理用戶信息、產品目錄和交易記錄等數據。 2.通過SQL查詢，開發者能從數據庫提取信息生成動態內容。 3.MySQL基於客戶端-服務器模型工作，確保查詢速度可接受。

MySQL與其他編程語言：一種比較 Apr 19, 2025 am 12:22 AM

MySQL与其他编程语言相比，主要用于存储和管理数据，而其他语言如Python、Java、C 则用于逻辑处理和应用开发。MySQL以其高性能、可扩展性和跨平台支持著称，适合数据管理需求，而其他语言在各自领域如数据分析、企业应用和系统编程中各有优势。

初學者的MySQL：開始數據庫管理 Apr 18, 2025 am 12:10 AM

MySQL的基本操作包括創建數據庫、表格，及使用SQL進行數據的CRUD操作。 1.創建數據庫：CREATEDATABASEmy_first_db;2.創建表格：CREATETABLEbooks(idINTAUTO_INCREMENTPRIMARYKEY,titleVARCHAR(100)NOTNULL,authorVARCHAR(100)NOTNULL,published_yearINT);3.插入數據：INSERTINTObooks(title,author,published_year)VA

解釋InnoDB緩衝池及其對性能的重要性。 Apr 19, 2025 am 12:24 AM

InnoDBBufferPool通過緩存數據和索引頁來減少磁盤I/O，提升數據庫性能。其工作原理包括：1.數據讀取：從BufferPool中讀取數據；2.數據寫入：修改數據後寫入BufferPool並定期刷新到磁盤；3.緩存管理：使用LRU算法管理緩存頁；4.預讀機制：提前加載相鄰數據頁。通過調整BufferPool大小和使用多個實例，可以優化數據庫性能。

MySQL：結構化數據和關係數據庫 Apr 18, 2025 am 12:22 AM

MySQL通過表結構和SQL查詢高效管理結構化數據，並通過外鍵實現表間關係。 1.創建表時定義數據格式和類型。 2.使用外鍵建立表間關係。 3.通過索引和查詢優化提高性能。 4.定期備份和監控數據庫確保數據安全和性能優化。

學習MySQL：新用戶的分步指南 Apr 19, 2025 am 12:19 AM

MySQL值得學習，因為它是強大的開源數據庫管理系統，適用於數據存儲、管理和分析。 1）MySQL是關係型數據庫，使用SQL操作數據，適合結構化數據管理。 2）SQL語言是與MySQL交互的關鍵，支持CRUD操作。 3）MySQL的工作原理包括客戶端/服務器架構、存儲引擎和查詢優化器。 4）基本用法包括創建數據庫和表，高級用法涉及使用JOIN連接表。 5）常見錯誤包括語法錯誤和權限問題，調試技巧包括檢查語法和使用EXPLAIN命令。 6）性能優化涉及使用索引、優化SQL語句和定期維護數據庫。

MySQL：一種對數據存儲的初學者友好方法 Apr 17, 2025 am 12:21 AM

MySQL適合初學者，因為它易用且功能強大。 1.MySQL是關係型數據庫，使用SQL進行CRUD操作。 2.安裝簡單，需配置root用戶密碼。 3.使用INSERT、UPDATE、DELETE、SELECT進行數據操作。 4.複雜查詢可使用ORDERBY、WHERE和JOIN。 5.調試需檢查語法，使用EXPLAIN分析查詢。 6.優化建議包括使用索引、選擇合適數據類型和良好編程習慣。

MySQL：初學者的基本技能 Apr 18, 2025 am 12:24 AM

MySQL適合初學者學習數據庫技能。 1.安裝MySQL服務器和客戶端工具。 2.理解基本SQL查詢，如SELECT。 3.掌握數據操作：創建表、插入、更新、刪除數據。 4.學習高級技巧：子查詢和窗口函數。 5.調試和優化：檢查語法、使用索引、避免SELECT*，並使用LIMIT。

See all articles

如何從大型 PostgreSQL 表中有效地選擇隨機行？

從大型PostgreSQL表中選擇隨機行

方法一：使用 RANDOM() 和 LIMIT

方法二：使用 ORDER BY RANDOM() 和 LIMIT

高效方法：使用數字 ID 欄位和索引

考慮因素與建議

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題