目次
大きな PostgreSQL テーブルからランダムな行を選択します
方法 1: RANDOM() と LIMIT を使用する
方法 2: ORDER BY RANDOM() と LIMIT を使用する
効率的なアプローチ: 数値 ID 列とインデックスを使用します
考慮事項と推奨事項
ホームページ データベース mysql チュートリアル 大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?

大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?

Jan 21, 2025 am 05:46 AM

How to Efficiently Select Random Rows from a Large PostgreSQL Table?

大きな PostgreSQL テーブルからランダムな行を選択します

大規模なデータセットを扱う場合、ランダムな行を選択するのは計算負荷の高いタスクになる可能性があります。この記事では、約 5 億行を含むテーブルからランダムな行を取得するさまざまな方法を検討し、そのパフォーマンスと精度について説明します。

方法 1: RANDOM() と LIMIT を使用する

最初の方法では、RANDOM() 関数を使用して乱数を生成し、次に LIMIT 句を使用して結果をフィルターし、必要な行数を取得します。

SELECT * FROM table WHERE RANDOM() < 0.000002 LIMIT 1000;
ログイン後にコピー

このアプローチには実装が簡単という利点がありますが、大きなテーブルの場合は非効率的になる可能性があります。 LIMIT 句があるため、データベースはテーブルのすべての行をスキャンしてランダムな行を選択し、残りを破棄する必要があります。

方法 2: ORDER BY RANDOM() と LIMIT を使用する

もう 1 つの方法は、最初に RANDOM() 関数によって行を並べ替えてから、LIMIT 句を使用してランダムな行を取得することです。

SELECT * FROM table ORDER BY RANDOM() LIMIT 1000;
ログイン後にコピー

この方法は最初の方法に似ていますが、並べ替えによりランダムな行のより効率的な選択が保証されます。必要なスキャンの数が減るため、大規模なテーブルに適した選択肢になります。ただし、行数が非常に多いテーブルには依然として最適な選択ではありません。

効率的なアプローチ: 数値 ID 列とインデックスを使用します

数値 ID 列がありギャップが少ないテーブルの場合は、より効率的なアプローチを使用できます。これには、ID の範囲内で乱数を生成し、それらを使用してテーブルに結合することが含まれます。

WITH params AS (
   SELECT 1 AS min_id,              -- 最小 ID <= 当前最小 ID
        5100000 AS id_span             -- 四舍五入。(max_id - min_id + buffer)
    )
SELECT *
FROM  (
   SELECT p.min_id + trunc(random() * p.id_span)::integer AS id
   FROM   params p, generate_series(1, 1100) g  -- 1000 + buffer
   GROUP  BY 1                        -- 去除重复项
) r
JOIN   table USING (id)
LIMIT  1000;
ログイン後にコピー

このアプローチでは、インデックス アクセスを利用して、必要なスキャンの数を大幅に削減します。これは、行数が多く、ID 列のギャップがほとんどないテーブルに最適です。

考慮事項と推奨事項

ランダムな行を選択する最適な方法は、特定のテーブルの特性とパフォーマンス要件によって異なります。小さなテーブルの場合は、RANDOM() メソッドまたは ORDER BY RANDOM() メソッドで十分な場合があります。ただし、数値 ID 列がありギャップがほとんどない大きなテーブルの場合は、最高のパフォーマンスを得るために上記の最適化方法を使用することをお勧めします。

コンピューターにおける擬似乱数生成の性質により、これらの方法はいずれも真のランダム性を保証できないことに注意してください。ただし、これらは、大きなテーブルから行のランダムなサンプルを適度な効率と精度で取得する実用的な方法を提供します。

以上が大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

MySQLでインデックスを使用するよりも、フルテーブルスキャンがいつ速くなるのでしょうか? MySQLでインデックスを使用するよりも、フルテーブルスキャンがいつ速くなるのでしょうか? Apr 09, 2025 am 12:05 AM

完全なテーブルスキャンは、MySQLでインデックスを使用するよりも速い場合があります。特定のケースには以下が含まれます。1)データボリュームは小さい。 2)クエリが大量のデータを返すとき。 3)インデックス列が高度に選択的でない場合。 4)複雑なクエリの場合。クエリプランを分析し、インデックスを最適化し、オーバーインデックスを回避し、テーブルを定期的にメンテナンスすることにより、実際のアプリケーションで最良の選択をすることができます。

Windows 7にMySQLをインストールできますか? Windows 7にMySQLをインストールできますか? Apr 08, 2025 pm 03:21 PM

はい、MySQLはWindows 7にインストールできます。MicrosoftはWindows 7のサポートを停止しましたが、MySQLは引き続き互換性があります。ただし、インストールプロセス中に次のポイントに注意する必要があります。WindowsのMySQLインストーラーをダウンロードしてください。 MySQL(コミュニティまたはエンタープライズ)の適切なバージョンを選択します。インストールプロセス中に適切なインストールディレクトリと文字セットを選択します。ルートユーザーパスワードを設定し、適切に保ちます。テストのためにデータベースに接続します。 Windows 7の互換性とセキュリティの問題に注意してください。サポートされているオペレーティングシステムにアップグレードすることをお勧めします。

INNODBフルテキスト検索機能を説明します。 INNODBフルテキスト検索機能を説明します。 Apr 02, 2025 pm 06:09 PM

INNODBのフルテキスト検索機能は非常に強力であり、データベースクエリの効率と大量のテキストデータを処理する能力を大幅に改善できます。 1)INNODBは、倒立インデックスを介してフルテキスト検索を実装し、基本的および高度な検索クエリをサポートします。 2)一致を使用してキーワードを使用して、ブールモードとフレーズ検索を検索、サポートします。 3)最適化方法には、単語セグメンテーションテクノロジーの使用、インデックスの定期的な再構築、およびパフォーマンスと精度を改善するためのキャッシュサイズの調整が含まれます。

INNODBのクラスターインデックスと非クラスターインデックス(セカンダリインデックス)の違い。 INNODBのクラスターインデックスと非クラスターインデックス(セカンダリインデックス)の違い。 Apr 02, 2025 pm 06:25 PM

クラスター化されたインデックスと非クラスター化されたインデックスの違いは次のとおりです。1。クラスター化されたインデックスは、インデックス構造にデータを保存します。これは、プライマリキーと範囲でクエリするのに適しています。 2.非クラスター化されたインデックスストアは、インデックスキー値とデータの行へのポインターであり、非プリマリーキー列クエリに適しています。

MySQL:簡単な学習のためのシンプルな概念 MySQL:簡単な学習のためのシンプルな概念 Apr 10, 2025 am 09:29 AM

MySQLは、オープンソースのリレーショナルデータベース管理システムです。 1)データベースとテーブルの作成:createdatabaseおよびcreateTableコマンドを使用します。 2)基本操作:挿入、更新、削除、選択。 3)高度な操作:参加、サブクエリ、トランザクション処理。 4)デバッグスキル:構文、データ型、およびアクセス許可を確認します。 5)最適化の提案:インデックスを使用し、選択*を避け、トランザクションを使用します。

MySQLユーザーとデータベースの関係 MySQLユーザーとデータベースの関係 Apr 08, 2025 pm 07:15 PM

MySQLデータベースでは、ユーザーとデータベースの関係は、アクセス許可と表によって定義されます。ユーザーには、データベースにアクセスするためのユーザー名とパスワードがあります。許可は助成金コマンドを通じて付与され、テーブルはCreate Tableコマンドによって作成されます。ユーザーとデータベースの関係を確立するには、データベースを作成し、ユーザーを作成してから許可を付与する必要があります。

mysqlとmariadbは共存できますか mysqlとmariadbは共存できますか Apr 08, 2025 pm 02:27 PM

MySQLとMariaDBは共存できますが、注意して構成する必要があります。重要なのは、さまざまなポート番号とデータディレクトリを各データベースに割り当て、メモリ割り当てやキャッシュサイズなどのパラメーターを調整することです。接続プーリング、アプリケーションの構成、およびバージョンの違いも考慮する必要があり、落とし穴を避けるために慎重にテストして計画する必要があります。 2つのデータベースを同時に実行すると、リソースが制限されている状況でパフォーマンスの問題を引き起こす可能性があります。

さまざまなタイプのMySQLインデックス(Bツリー、ハッシュ、フルテキスト、空間)を説明します。 さまざまなタイプのMySQLインデックス(Bツリー、ハッシュ、フルテキスト、空間)を説明します。 Apr 02, 2025 pm 07:05 PM

MySQLは、Bツリー、ハッシュ、フルテキスト、および空間の4つのインデックスタイプをサポートしています。 1.B-Treeインデックスは、等しい値検索、範囲クエリ、ソートに適しています。 2。ハッシュインデックスは、等しい値検索に適していますが、範囲のクエリとソートをサポートしていません。 3.フルテキストインデックスは、フルテキスト検索に使用され、大量のテキストデータの処理に適しています。 4.空間インデックスは、地理空間データクエリに使用され、GISアプリケーションに適しています。

See all articles