Rumah > pangkalan data > tutorial mysql > Bagaimanakah Saya Boleh Memilih Baris Rawak dengan Cekap daripada Jadual PostgreSQL Besar?

Bagaimanakah Saya Boleh Memilih Baris Rawak dengan Cekap daripada Jadual PostgreSQL Besar?

Barbara Streisand
Lepaskan: 2025-01-21 05:37:09
asal
835 orang telah melayarinya

How Can I Efficiently Select Random Rows from a Large PostgreSQL Table?

Memilih baris secara rawak daripada pangkalan data yang besar seperti PostgreSQL boleh menjadi tugas yang intensif prestasi. Artikel ini meneroka dua kaedah biasa untuk mencapai matlamat ini dengan cekap dan membincangkan kelebihan dan kekurangannya.

Kaedah 1: Tapis mengikut nilai rawak

<code class="language-sql">select * from table where random() < 0.01;</code>
Salin selepas log masuk

Kaedah ini mengisih baris secara rawak dan kemudian menapis berdasarkan ambang. Walau bagaimanapun, ia memerlukan imbasan jadual penuh dan boleh menjadi perlahan untuk set data yang besar.

Kaedah 2: Isih mengikut nilai rawak dan hadkan keputusan

<code class="language-sql">select * from table order by random() limit 1000;</code>
Salin selepas log masuk

Kaedah ini mengisih baris secara rawak dan memilih n baris atas. Ia berprestasi lebih baik daripada kaedah pertama, tetapi ia mempunyai had: ia mungkin tidak dapat memilih subset rawak apabila terdapat terlalu banyak baris dalam kumpulan baris.

Penyelesaian pengoptimuman untuk set data yang besar

Untuk jadual dengan bilangan baris yang banyak (seperti 500 juta baris dalam contoh anda), pendekatan berikut menyediakan penyelesaian yang dioptimumkan:

<code class="language-sql">WITH params AS (
   SELECT 1       AS min_id,           -- 最小ID(小于等于当前最小ID)
        5100000 AS id_span          -- 四舍五入。(max_id - min_id + buffer)
    )
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p
        , generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   big USING (id)
LIMIT  1000;                          -- 去除多余项</code>
Salin selepas log masuk

Pertanyaan ini menggunakan indeks pada lajur ID untuk mendapatkan semula yang cekap. Ia menjana satu siri nombor rawak dalam ruang ID, memastikan ID adalah unik dan menggabungkan data dengan jadual utama untuk memilih bilangan baris yang diperlukan.

Pertimbangan lain

Pertanyaan sempadan:
Adalah penting bahawa lajur ID jadual mempunyai sedikit jurang untuk mengelakkan keperluan untuk penimbal besar dalam penjanaan nombor rawak.

Paparan material:
Jika anda perlu berulang kali mengakses data rawak, pertimbangkan untuk mencipta paparan terwujud untuk meningkatkan prestasi.

SISTEM CONTOH JADUAL untuk PostgreSQL 9.5:
Teknik pengoptimuman yang diperkenalkan dalam PostgreSQL 9.5 ini membolehkan pensampelan pantas bagi peratusan baris tertentu.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Memilih Baris Rawak dengan Cekap daripada Jadual PostgreSQL Besar?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan