如何在 PostgreSQL 中有效率地選擇隨機行？-mysql教程-PHP中文網

首頁

資料庫

mysql教程

如何在 PostgreSQL 中有效率地選擇隨機行？

Susan Sarandon

Jan 21, 2025 am 05:32 AM

How to Efficiently Select Random Rows in PostgreSQL?

PostgreSQL高效隨機行選擇方法

在PostgreSQL中選擇隨機行，最佳方法取決於表格的大小、可用索引以及所需的隨機性等級。

對於擁有5億行且包含數值ID欄位（例如，id）的超大型表：

最快方法：
- 使用CTE和random()函數在ID空間內產生隨機ID。
- 使用id列將產生的ID與表格連接。
- 過濾掉重複項並移除多餘的ID。

WITH params AS (
   SELECT 1       AS min_id,           -- 最小id
        , 5100000 AS id_span          -- 四舍五入。(max_id - min_id + buffer)
)
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p
        , generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   big USING (id)
LIMIT  1000;                          -- 去除多余项

登入後複製

改良方法：
- 使用遞歸CTE (random_pick) 消除ID空間中的任何間隙。
- 合併遞迴結果以消除重複項。
- 應用外部LIMIT以滿足限制條件。

WITH RECURSIVE random_pick AS (
   SELECT *
   FROM  (
      SELECT 1 + trunc(random() * 5100000)::int AS id
      FROM   generate_series(1, 1030)  -- 1000 + 百分之几 - 根据需要调整
      LIMIT  1030                      -- 查询规划器提示
      ) r
   JOIN   big b USING (id)             -- 消除缺失

   UNION                               -- 消除重复项
   SELECT b.*
   FROM  (
      SELECT 1 + trunc(random() * 5100000)::int AS id
      FROM   random_pick r             -- 加上百分之三 - 根据需要调整
      LIMIT  999                       -- 小于1000，查询规划器提示
      ) r
   JOIN   big b USING (id)             -- 消除缺失
   )
TABLE  random_pick
LIMIT  1000;  -- 实际限制

登入後複製

通用函數：
- 將上述查詢包裝到一個函數中，以便可以對任何具有唯一整數列的表重複使用它們。

CREATE OR REPLACE FUNCTION f_random_sample(_tbl_type anyelement
                                         , _id text = 'id'
                                         , _limit int = 1000
                                         , _gaps real = 1.03)
  RETURNS SETOF anyelement
  LANGUAGE plpgsql VOLATILE ROWS 1000 AS
$func$
DECLARE
   _tbl text := pg_typeof(_tbl_type)::text;
   _estimate int := (...);
BEGIN
   RETURN QUERY EXECUTE format(
   $$
   WITH RECURSIVE random_pick AS (
      SELECT ...
      FROM  ...
     ...
   )
   TABLE  random_pick
   LIMIT  ;
   $$
 , _tbl, _id
   )
   USING (...);
END
$func$;

登入後複製

對於不需要精確隨機性或重複呼叫的場景：

物化視圖：
- 建立一個物化視圖來儲存近似隨機選擇的行。
- 定期刷新物化視圖。
TABLESAMPLE SYSTEM (n)：
- 在PostgreSQL 9.5中引入，TABLESAMPLE SYSTEM (n)提供了一種快速且非精確的隨機抽樣方法。
- n參數表示要抽樣的表格百分比。

SELECT * FROM big TABLESAMPLE SYSTEM ((1000 * 100) / 5100000.0);

登入後複製

其他注意事項：

為獲得最佳效能，請在ID欄位上使用索引。
PostgreSQL中的random()函數不是密碼學安全的。
建議的方法為大多數實際用例提供了高度的隨機性。

以上是如何在 PostgreSQL 中有效率地選擇隨機行？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1655

CakePHP 教程

1414

Laravel 教程

1307

PHP教程

1254

C# 教程

1228

Related knowledge

與MySQL中使用索引相比，全表掃描何時可以更快？ Apr 09, 2025 am 12:05 AM

全表掃描在MySQL中可能比使用索引更快，具體情況包括：1)數據量較小時；2)查詢返回大量數據時；3)索引列不具備高選擇性時；4)複雜查詢時。通過分析查詢計劃、優化索引、避免過度索引和定期維護表，可以在實際應用中做出最優選擇。

可以在 Windows 7 上安裝 mysql 嗎 Apr 08, 2025 pm 03:21 PM

是的，可以在 Windows 7 上安裝 MySQL，雖然微軟已停止支持 Windows 7，但 MySQL 仍兼容它。不過，安裝過程中需要注意以下幾點：下載適用於 Windows 的 MySQL 安裝程序。選擇合適的 MySQL 版本（社區版或企業版）。安裝過程中選擇適當的安裝目錄和字符集。設置 root 用戶密碼，並妥善保管。連接數據庫進行測試。注意 Windows 7 上的兼容性問題和安全性問題，建議升級到受支持的操作系統。

mysql：簡單的概念，用於輕鬆學習 Apr 10, 2025 am 09:29 AM

MySQL是一個開源的關係型數據庫管理系統。 1）創建數據庫和表：使用CREATEDATABASE和CREATETABLE命令。 2）基本操作：INSERT、UPDATE、DELETE和SELECT。 3）高級操作：JOIN、子查詢和事務處理。 4）調試技巧：檢查語法、數據類型和權限。 5）優化建議：使用索引、避免SELECT*和使用事務。

mysql 和 mariadb 可以共存嗎 Apr 08, 2025 pm 02:27 PM

MySQL 和 MariaDB 可以共存，但需要謹慎配置。關鍵在於為每個數據庫分配不同的端口號和數據目錄，並調整內存分配和緩存大小等參數。連接池、應用程序配置和版本差異也需要考慮，需要仔細測試和規劃以避免陷阱。在資源有限的情況下，同時運行兩個數據庫可能會導致性能問題。

RDS MySQL 與 Redshift 零 ETL 集成 Apr 08, 2025 pm 07:06 PM

數據集成簡化：AmazonRDSMySQL與Redshift的零ETL集成高效的數據集成是數據驅動型組織的核心。傳統的ETL（提取、轉換、加載）流程複雜且耗時，尤其是在將數據庫（例如AmazonRDSMySQL）與數據倉庫（例如Redshift）集成時。然而，AWS提供的零ETL集成方案徹底改變了這一現狀，為從RDSMySQL到Redshift的數據遷移提供了簡化、近乎實時的解決方案。本文將深入探討RDSMySQL零ETL與Redshift集成，闡述其工作原理以及為數據工程師和開發者帶來的優勢。

mysql用戶和數據庫的關係 Apr 08, 2025 pm 07:15 PM

MySQL 數據庫中，用戶和數據庫的關係通過權限和表定義。用戶擁有用戶名和密碼，用於訪問數據庫。權限通過 GRANT 命令授予，而表由 CREATE TABLE 命令創建。要建立用戶和數據庫之間的關係，需創建數據庫、創建用戶，然後授予權限。

Bangla 部分模型檢索中的 Laravel Eloquent ORM） Apr 08, 2025 pm 02:06 PM

LaravelEloquent模型檢索：輕鬆獲取數據庫數據EloquentORM提供了簡潔易懂的方式來操作數據庫。本文將詳細介紹各種Eloquent模型檢索技巧，助您高效地從數據庫中獲取數據。 1.獲取所有記錄使用all()方法可以獲取數據庫表中的所有記錄：useApp\Models\Post;$posts=Post::all();這將返回一個集合(Collection)。您可以使用foreach循環或其他集合方法訪問數據：foreach($postsas$post){echo$post->

MySQL：初學者的數據管理易用性 Apr 09, 2025 am 12:07 AM

MySQL適合初學者使用，因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單，適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施，確保數據的安全和一致性。

See all articles

如何在 PostgreSQL 中有效率地選擇隨機行？

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題