ホームページ データベース mysql チュートリアル 大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?

大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?

Jan 21, 2025 am 05:26 AM

How to Efficiently Select Random Rows from Large PostgreSQL Tables?

PostgreSQL のランダム行選択メソッド

従来のランダムな行選択方法は、数百万、さらには数十億のレコードを含む大きなテーブルを扱う場合、非効率的で時間がかかります。一般的なメソッドは次の 2 つです:

  • random() を使用してフィルタリングします:

      select * from table where random() < 0.001;
    ログイン後にコピー
  • order by random()limit を使用します:

      select * from table order by random() limit 1000;
    ログイン後にコピー

ただし、テーブル全体のスキャンや並べ替えが必要なため、これらの方法は行数が多いテーブルには最適ではなく、パフォーマンスのボトルネックを引き起こす可能性があります。

大規模なテーブルの最適化方法

次のタイプのテーブルの場合は、大幅に高速な次の最適化方法を検討してください。

  • ギャップが小さいまたは中程度の数値 ID 列 (検索を高速化するためにインデックス化されています)
  • 選択中に書き込み操作がないか、最小限の操作

クエリ:

WITH params AS (
  SELECT 1 AS min_id, -- 可选:自定义最小ID起始值
       5100000 AS id_span -- 近似ID范围(最大ID - 最小ID + 缓冲)
)
SELECT *
FROM (
  SELECT DISTINCT 1 + trunc(random() * p.id_span)::integer AS id
  FROM params p, generate_series(1, 1100) g
  GROUP BY 1
) r
INNER JOIN big ON r.id = big.id
LIMIT 1000;
ログイン後にコピー

仕組み:

  • ID 範囲の推定:

    • 正確にわからない場合は、テーブルにクエリを実行して、ID 列の最小値、最大値、および合計スパン (最大値 - 最小値) を推定します。
  • ランダム ID 生成:

    • 推定された ID 範囲内で別の乱数セットを生成します。
  • 冗長性と重複の削除:

    • 生成された数値をグループ化して重複を削除し、欠落している行やすでに選択されている行を選択する可能性を減らします。
  • テーブルの結合と制限:

    • ID 列を使用して、乱数を実際のテーブルと結合します (インデックス付けする必要があります)。この効率的な結合により、選択された行に対応するデータが取得されます。
    • 最後に、必要な行数を取得するために制限を適用します。

速い理由:

  • 最小限のインデックス使用量:

    • クエリは ID 列のインデックス スキャンのみを実行します。これは、テーブル全体のスキャンや並べ替え操作よりもはるかに高速です。
  • 最適化された乱数生成:

    • 生成された乱数は推定された ID 範囲全体に分散され、行の欠落または重複の可能性が最小限に抑えられます。
  • 冗長性と重複の削除:

    • 生成された数値をグループ化すると、個別の行のみが選択されるようになり、重複を排除するための追加のフィルタリングや結合の必要性が減ります。

その他のオプション:

  • ギャップを処理するための再帰的 CTE:

    • ID シーケンスにギャップがあるテーブルの場合、これらのギャップを処理するために追加の CTE を追加します。
  • 再利用のための関数ラッパー:

    • リミットとギャップのパーセンテージをパラメーターとして受け取る関数を定義すると、簡単な構成とさまざまなテーブルでの再利用が可能になります。
  • あらゆるテーブルのユニバーサル関数:

    • 整数列を持つ任意のテーブルをパラメーターとして受け入れる汎用関数を作成します。
  • 高速化のためにビューを実体化する:

    • (準) ランダムに選択された行をより高速に取得するために、最適化されたクエリに基づいてマテリアライズド ビューを作成することを検討してください。
  • PostgreSQL 9.5 の

    TABLE SAMPLE:

    • PostgreSQL の「TABLE SAMPLE SYSTEM」機能を利用して、高速かつランダム性の低い行サンプリング方法を実装し、正確な行数が返されるようにします。ただし、クラスタリング効果により、サンプルは完全にランダムではない可能性があることに注意してください。

以上が大規模な PostgreSQL テーブルからランダムな行を効率的に選択するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

MySQLでインデックスを使用するよりも、フルテーブルスキャンがいつ速くなるのでしょうか? MySQLでインデックスを使用するよりも、フルテーブルスキャンがいつ速くなるのでしょうか? Apr 09, 2025 am 12:05 AM

完全なテーブルスキャンは、MySQLでインデックスを使用するよりも速い場合があります。特定のケースには以下が含まれます。1)データボリュームは小さい。 2)クエリが大量のデータを返すとき。 3)インデックス列が高度に選択的でない場合。 4)複雑なクエリの場合。クエリプランを分析し、インデックスを最適化し、オーバーインデックスを回避し、テーブルを定期的にメンテナンスすることにより、実際のアプリケーションで最良の選択をすることができます。

Windows 7にMySQLをインストールできますか? Windows 7にMySQLをインストールできますか? Apr 08, 2025 pm 03:21 PM

はい、MySQLはWindows 7にインストールできます。MicrosoftはWindows 7のサポートを停止しましたが、MySQLは引き続き互換性があります。ただし、インストールプロセス中に次のポイントに注意する必要があります。WindowsのMySQLインストーラーをダウンロードしてください。 MySQL(コミュニティまたはエンタープライズ)の適切なバージョンを選択します。インストールプロセス中に適切なインストールディレクトリと文字セットを選択します。ルートユーザーパスワードを設定し、適切に保ちます。テストのためにデータベースに接続します。 Windows 7の互換性とセキュリティの問題に注意してください。サポートされているオペレーティングシステムにアップグレードすることをお勧めします。

INNODBフルテキスト検索機能を説明します。 INNODBフルテキスト検索機能を説明します。 Apr 02, 2025 pm 06:09 PM

INNODBのフルテキスト検索機能は非常に強力であり、データベースクエリの効率と大量のテキストデータを処理する能力を大幅に改善できます。 1)INNODBは、倒立インデックスを介してフルテキスト検索を実装し、基本的および高度な検索クエリをサポートします。 2)一致を使用してキーワードを使用して、ブールモードとフレーズ検索を検索、サポートします。 3)最適化方法には、単語セグメンテーションテクノロジーの使用、インデックスの定期的な再構築、およびパフォーマンスと精度を改善するためのキャッシュサイズの調整が含まれます。

MySQL:簡単な学習のためのシンプルな概念 MySQL:簡単な学習のためのシンプルな概念 Apr 10, 2025 am 09:29 AM

MySQLは、オープンソースのリレーショナルデータベース管理システムです。 1)データベースとテーブルの作成:createdatabaseおよびcreateTableコマンドを使用します。 2)基本操作:挿入、更新、削除、選択。 3)高度な操作:参加、サブクエリ、トランザクション処理。 4)デバッグスキル:構文、データ型、およびアクセス許可を確認します。 5)最適化の提案:インデックスを使用し、選択*を避け、トランザクションを使用します。

INNODBのクラスターインデックスと非クラスターインデックス(セカンダリインデックス)の違い。 INNODBのクラスターインデックスと非クラスターインデックス(セカンダリインデックス)の違い。 Apr 02, 2025 pm 06:25 PM

クラスター化されたインデックスと非クラスター化されたインデックスの違いは次のとおりです。1。クラスター化されたインデックスは、インデックス構造にデータを保存します。これは、プライマリキーと範囲でクエリするのに適しています。 2.非クラスター化されたインデックスストアは、インデックスキー値とデータの行へのポインターであり、非プリマリーキー列クエリに適しています。

mysqlとmariadbは共存できますか mysqlとmariadbは共存できますか Apr 08, 2025 pm 02:27 PM

MySQLとMariaDBは共存できますが、注意して構成する必要があります。重要なのは、さまざまなポート番号とデータディレクトリを各データベースに割り当て、メモリ割り当てやキャッシュサイズなどのパラメーターを調整することです。接続プーリング、アプリケーションの構成、およびバージョンの違いも考慮する必要があり、落とし穴を避けるために慎重にテストして計画する必要があります。 2つのデータベースを同時に実行すると、リソースが制限されている状況でパフォーマンスの問題を引き起こす可能性があります。

MySQLユーザーとデータベースの関係 MySQLユーザーとデータベースの関係 Apr 08, 2025 pm 07:15 PM

MySQLデータベースでは、ユーザーとデータベースの関係は、アクセス許可と表によって定義されます。ユーザーには、データベースにアクセスするためのユーザー名とパスワードがあります。許可は助成金コマンドを通じて付与され、テーブルはCreate Tableコマンドによって作成されます。ユーザーとデータベースの関係を確立するには、データベースを作成し、ユーザーを作成してから許可を付与する必要があります。

RDS MySQL Redshift Zero ETLとの統合 RDS MySQL Redshift Zero ETLとの統合 Apr 08, 2025 pm 07:06 PM

データ統合の簡素化:AmazonrdsmysqlとRedshiftのゼロETL統合効率的なデータ統合は、データ駆動型組織の中心にあります。従来のETL(抽出、変換、負荷)プロセスは、特にデータベース(AmazonrdsmysQlなど)をデータウェアハウス(Redshiftなど)と統合する場合、複雑で時間がかかります。ただし、AWSは、この状況を完全に変えたゼロETL統合ソリューションを提供し、RDSMYSQLからRedshiftへのデータ移行のための簡略化されたほぼリアルタイムソリューションを提供します。この記事では、RDSMysQl Zero ETLのRedshiftとの統合に飛び込み、それがどのように機能するか、それがデータエンジニアと開発者にもたらす利点を説明します。

See all articles