大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?
大きな PostgreSQL テーブルからランダムな行を選択します
大規模なデータセットを扱う場合、ランダムな行を選択するのは計算負荷の高いタスクになる可能性があります。この記事では、約 5 億行を含むテーブルからランダムな行を取得するさまざまな方法を検討し、そのパフォーマンスと精度について説明します。
方法 1: RANDOM() と LIMIT を使用する
最初の方法では、RANDOM() 関数を使用して乱数を生成し、次に LIMIT 句を使用して結果をフィルターし、必要な行数を取得します。
SELECT * FROM table WHERE RANDOM() < 0.000002 LIMIT 1000;
このアプローチには実装が簡単という利点がありますが、大きなテーブルの場合は非効率的になる可能性があります。 LIMIT 句があるため、データベースはテーブルのすべての行をスキャンしてランダムな行を選択し、残りを破棄する必要があります。
方法 2: ORDER BY RANDOM() と LIMIT を使用する
もう 1 つの方法は、最初に RANDOM() 関数によって行を並べ替えてから、LIMIT 句を使用してランダムな行を取得することです。
SELECT * FROM table ORDER BY RANDOM() LIMIT 1000;
この方法は最初の方法に似ていますが、並べ替えによりランダムな行のより効率的な選択が保証されます。必要なスキャンの数が減るため、大規模なテーブルに適した選択肢になります。ただし、行数が非常に多いテーブルには依然として最適な選択ではありません。
効率的なアプローチ: 数値 ID 列とインデックスを使用します
数値 ID 列がありギャップが少ないテーブルの場合は、より効率的なアプローチを使用できます。これには、ID の範囲内で乱数を生成し、それらを使用してテーブルに結合することが含まれます。
WITH params AS ( SELECT 1 AS min_id, -- 最小 ID <= 当前最小 ID 5100000 AS id_span -- 四舍五入。(max_id - min_id + buffer) ) SELECT * FROM ( SELECT p.min_id + trunc(random() * p.id_span)::integer AS id FROM params p, generate_series(1, 1100) g -- 1000 + buffer GROUP BY 1 -- 去除重复项 ) r JOIN table USING (id) LIMIT 1000;
このアプローチでは、インデックス アクセスを利用して、必要なスキャンの数を大幅に削減します。これは、行数が多く、ID 列のギャップがほとんどないテーブルに最適です。
考慮事項と推奨事項
ランダムな行を選択する最適な方法は、特定のテーブルの特性とパフォーマンス要件によって異なります。小さなテーブルの場合は、RANDOM() メソッドまたは ORDER BY RANDOM() メソッドで十分な場合があります。ただし、数値 ID 列がありギャップがほとんどない大きなテーブルの場合は、最高のパフォーマンスを得るために上記の最適化方法を使用することをお勧めします。
コンピューターにおける擬似乱数生成の性質により、これらの方法はいずれも真のランダム性を保証できないことに注意してください。ただし、これらは、大きなテーブルから行のランダムなサンプルを適度な効率と精度で取得する実用的な方法を提供します。
以上が大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











WebアプリケーションにおけるMySQLの主な役割は、データを保存および管理することです。 1.MYSQLは、ユーザー情報、製品カタログ、トランザクションレコード、その他のデータを効率的に処理します。 2。SQLクエリを介して、開発者はデータベースから情報を抽出して動的なコンテンツを生成できます。 3.MYSQLは、クライアントサーバーモデルに基づいて機能し、許容可能なクエリ速度を確保します。

INNODBは、レドログと非論的なものを使用して、データの一貫性と信頼性を確保しています。 1.レドログは、クラッシュの回復とトランザクションの持続性を確保するために、データページの変更を記録します。 2.Undologsは、元のデータ値を記録し、トランザクションロールバックとMVCCをサポートします。

他のプログラミング言語と比較して、MySQLは主にデータの保存と管理に使用されますが、Python、Java、Cなどの他の言語は論理処理とアプリケーション開発に使用されます。 MySQLは、データ管理のニーズに適した高性能、スケーラビリティ、およびクロスプラットフォームサポートで知られていますが、他の言語は、データ分析、エンタープライズアプリケーション、システムプログラミングなどのそれぞれの分野で利点があります。

MySQLインデックスのカーディナリティは、クエリパフォーマンスに大きな影響を及ぼします。1。高いカーディナリティインデックスは、データ範囲をより効果的に狭め、クエリ効率を向上させることができます。 2。低カーディナリティインデックスは、完全なテーブルスキャンにつながり、クエリのパフォーマンスを削減する可能性があります。 3。ジョイントインデックスでは、クエリを最適化するために、高いカーディナリティシーケンスを前に配置する必要があります。

MySQLの基本操作には、データベース、テーブルの作成、およびSQLを使用してデータのCRUD操作を実行することが含まれます。 1.データベースの作成:createdatabasemy_first_db; 2。テーブルの作成:createTableBooks(idintauto_incrementprimarykey、titlevarchary(100)notnull、authorvarchar(100)notnull、published_yearint); 3.データの挿入:InsertIntoBooks(タイトル、著者、公開_year)VA

MySQLは、Webアプリケーションやコンテンツ管理システムに適しており、オープンソース、高性能、使いやすさに人気があります。 1)PostgreSQLと比較して、MySQLは簡単なクエリと高い同時読み取り操作でパフォーマンスが向上します。 2)Oracleと比較して、MySQLは、オープンソースと低コストのため、中小企業の間でより一般的です。 3)Microsoft SQL Serverと比較して、MySQLはクロスプラットフォームアプリケーションにより適しています。 4)MongoDBとは異なり、MySQLは構造化されたデータおよびトランザクション処理により適しています。

Innodbbufferpoolは、データをキャッシュしてページをインデックス作成することにより、ディスクI/Oを削減し、データベースのパフォーマンスを改善します。その作業原則には次のものが含まれます。1。データ読み取り:Bufferpoolのデータを読む。 2。データの書き込み:データを変更した後、bufferpoolに書き込み、定期的にディスクに更新します。 3.キャッシュ管理:LRUアルゴリズムを使用して、キャッシュページを管理します。 4.読みメカニズム:隣接するデータページを事前にロードします。 BufferPoolのサイジングと複数のインスタンスを使用することにより、データベースのパフォーマンスを最適化できます。

MySQLは、テーブル構造とSQLクエリを介して構造化されたデータを効率的に管理し、外部キーを介してテーブル間関係を実装します。 1.テーブルを作成するときにデータ形式と入力を定義します。 2。外部キーを使用して、テーブル間の関係を確立します。 3。インデックス作成とクエリの最適化により、パフォーマンスを改善します。 4.データベースを定期的にバックアップおよび監視して、データのセキュリティとパフォーマンスの最適化を確保します。
