mysqlインデックスが速い理由は何ですか?-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

mysqlインデックスが速い理由は何ですか?

PHPz

May 31, 2023 pm 08:58 PM

mysql

事前ソートにより、二分探索などの高効率なアルゴリズムを使用してインデックスを検索できます。一般的な逐次探索の複雑さは O(n) ですが、二分探索の複雑さは O(log2n) であり、n が非常に大きい場合、両者の効率の差は大きくなります。

Mysql はインターネット上で非常に人気のあるデータベースです。その基盤となるストレージエンジンとデータ取得エンジンの設計は非常に重要です。特に、Mysql データの格納形式とインデックスの設計が決まります。 Mysql の全体的なデータの取得パフォーマンス。

インデックスの機能はデータを迅速に取得することであり、高速取得の本質はデータ構造であることはわかっています。さまざまなデータ構造を選択することで、さまざまなデータを迅速に取得できます。データベースには大量のデータが保存されており、効率的なインデックスにより時間を大幅に節約できるため、データベースでは効率的な検索アルゴリズムが非常に重要です。たとえば、次のデータテーブルでは、Mysql がインデックスアルゴリズムを実装していない場合、id=7 のデータを見つけるには、暴力的シーケンシャルトラバーサルのみを使用できます。id=7 のデータを見つけるには、次のようにします。このテーブルに 1000 万件のデータが格納されている場合、id=1000W のデータを検索するには 1000W 回比較することになり、この速度は許容できません。

1. Mysql インデックスの基礎となるデータ構造の選択

ハッシュテーブル (ハッシュ)

ハッシュテーブルは、データを高速に取得するための効果的なツールです。

ハッシュアルゴリズム: ハッシュアルゴリズムとも呼ばれ、ハッシュ関数を通じて任意の値 (キー) を固定長のキーアドレスに変換し、このアドレスを使用して特定のデータのデータ構造を作成します。

select * from user where id=7;

ログイン後にコピー

ハッシュアルゴリズムは、最初に物理アドレス addr=hash(7)=4231 を計算して、id=7 のデータを保存します。4231 によってマップされた物理アドレスは 0x77 であり、 0x77 は id=7 が格納される場所ですデータの物理アドレス user_name='g' に対応するデータはこの独立したアドレスから見つけることができます。これは、データを迅速に取得するためにハッシュアルゴリズムで使用される計算プロセスです。

しかし、ハッシュアルゴリズムにはデータ衝突の問題があります。つまり、ハッシュ関数は異なるキーに対して同じ結果を計算する可能性があります。たとえば、hash(7) は hash(199) と同じ結果を計算する可能性があります。つまり、異なるキーが同じ結果にマッピングされており、これは衝突の問題です。衝突問題を解決する一般的な方法は、リンクリストを使用して衝突するデータを接続するチェーンアドレス法です。ハッシュ値を計算した後、ハッシュ値がデータリンクリスト内で衝突しているかどうかも確認する必要があります。衝突している場合は、実際のキーに対応するデータが見つかるまで、リンクリストの最後まで走査されます。

データ取得の一般的な方法は、次の SQL ステートメントのような範囲検索であることを考慮しているためです:

select * from user where id \>3;

ログイン後にコピー

上記のステートメントの場合、私たちがやりたいことは、id> を持つデータを見つけることです。 ;3、これは非常に典型的な範囲検索です。ハッシュアルゴリズムによって実装されたインデックスを使用する場合、範囲検索を行うにはどうすればよいですか?簡単なアイデアは、すべてのデータを一度に検索してメモリにロードし、メモリ内の対象範囲内のデータをフィルタリングすることです。しかし、この範囲検索方法は非常に煩雑であり、まったく効率的ではありません。

したがって、ハッシュアルゴリズムを使用して実装されたインデックスは、データを高速に取得できますが、データの効率的な範囲検索を行うことができないため、ハッシュインデックスは Mysql の基礎となるインデックスとして適したデータ構造ではありません。

二分探索ツリー (BST)

二分探索ツリーは、次の図に示すように、高速なデータ検索をサポートするデータ構造です。

#二分探索木の時間計算量は O(lgn) です。たとえば、上記の二分木構造の場合、3 回の計算と比較が必要です。 id=7 のデータは、直接トラバーサルクエリに比べて半分の時間が短縮され、検索効率の観点からは高速な検索が可能と思われます。また、ハッシュインデックスでは実現できない範囲検索機能を二分木の構造で解決できるのでしょうか？

答えは「はい」です。上の図を見ると、バイナリツリーのリーフノードが左から右に昇順に配置されています。id > 5 のデータを見つける必要がある場合は、ノード 6 とその右側のノードを取り出すことができます。サブツリー、範囲検索は比較的簡単に実装できます。

しかし、通常の二分探索木には致命的な欠点があります。極端な場合、二分探索は線形連結リストに縮退し、二分探索も横断探索に縮退し、時間計算量は O(N) にまで縮退します。となり、検索パフォーマンスが大幅に低下します。例えば、次のような状況では、二分木は非常にアンバランスで連結リストに縮退しており、検索速度が大幅に低下します。この時点で、id=7のデータを取得するのに必要な計算回数は7回となりました。

AVL ツリーと赤黒ツリー

二分探索木には不均衡の問題があるため、学者たちは、二分探索木を自動回転と調整によって作成することを提案しました。ツリーノード基本的にバランスの取れた状態を常に維持することで、二分探索ツリーの最高の検索パフォーマンスを維持できます。この考え方に基づく自己調整平衡状態を持つバイナリツリーには、AVL ツリーと赤黒ツリーが含まれます。

まず、赤黒ツリーについて簡単に紹介します。これは、木の形状を自動的に調整する木構造です。例えば、二分木がアンバランスな状態にある場合、赤黒ツリーは、ノードを自動的に左右に回転させ、ノードの色を変更します基本的なバランスの取れた状態 (時間計算量が O(logn)) を維持するようにツリーの形状を調整することで、検索効率が大幅に低下することはありません。たとえば、データノードが 1 から 7 まで昇順に挿入されると、通常の二分探索木はリンクリストに縮退しますが、赤黒木は図に示すように基本的なバランスを維持するために木の形状を継続的に調整します。下の図のとおりです。以下の赤黒ツリーで id=7 を検索するときに比較されるノードの数は 4 ですが、それでも二分木の良好な検索効率が維持されます。

赤黒ツリーは平均的な検索効率が良く、極端な O(n) 状況はありません。赤黒ツリーは Mysql の基礎となるインデックス実装として使用できますか?実際、赤黒の木にもいくつかの問題があります。次の例を見てください。

赤黒ツリーは 1 ～ 7 個のノードを順番に挿入しますが、id=7 を検索するときに計算する必要があるノードの数は 4 です。

ここで、別のより厳密な自己平衡型バイナリツリーである AVL ツリーについて考えてみましょう。 AVL ツリーは完全にバランスの取れたバイナリツリーであるため、バイナリツリーの形状を調整する際により多くのパフォーマンスを消費します。

AVL ツリーは 1 ～ 7 個のノードを順番に挿入し、id=7 のノードの比較回数は 3 回です。

#AVL ツリーは 1 ～ 16 のノードを順番に挿入し、id=16 を見つけます。比較したのは4です。検索効率の点では、AVL ツリーの検索速度は赤黒ツリーよりも高速です (AVL ツリーは 4 回の比較、赤黒ツリーは 6 回の比較)。樹形から判断すると、AVL の木には赤黒木のような「右傾」の問題がありません。言い換えれば、大量の連続挿入によってクエリのパフォーマンスが低下することはなく、これにより赤黒ツリーの問題が根本的に解決されます。

AVL ツリーの利点を要約します:

優れた検索パフォーマンス (O(logn)) により、極端に非効率な検索状況は発生しません。

データベースクエリデータのボトルネックはディスク IO です。AVL ツリーを使用する場合、各ツリーノードには 1 つのデータしか格納されません。1 つのノードでのみデータを取り出してロードすることができます。たとえば、データ ID=7 をクエリするには、ディスク IO を 3 回実行する必要があり、非常に時間がかかります。したがって、データベースのインデックスを設計するときは、まずディスク IO の数をできるだけ減らす方法を検討する必要があります。

Disk IO はディスクから 1B のデータを読み込むのにかかる時間と 1KB のデータを読み込むのにかかる時間は基本的に同じであるという特性を持っており、この考えに基づいてツリーノード上で可能な限り多くのデータを読み込むことができます。データをローカルにロードし、1 回のディスク IO でより多くのデータをメモリにロードする、これが B ツリーと B ツリーの設計原則です。

B ツリー

次の B ツリーは、ノードあたり最大 2 つのキーの保存に制限されています。ノードに 3 つ以上のキーがある場合は、自動的にスプリット。たとえば、次の B ツリーには 7 つのデータが格納されています。id=7 のデータの特定の場所を知るには、2 つのノードをクエリするだけで済みます。つまり、2 つのディスク IO で指定されたデータをクエリできます。 AVL ツリー。

単一ノードのキー数制限を 6 に設定すると、7 個のデータを格納する B ツリーの場合、id=7 のデータをクエリするために必要なディスク IO は 2 回になります。

16 個のデータを格納する B ツリーでは、id=7 でデータをクエリするには 2 つのディスク IO が必要です。 AVL ツリーと比較すると、ディスク IO の数が半分に減ります。

したがって、データベースインデックスデータ構造の選択という点では、B ツリーは非常に良い選択です。要約すると、B ツリーをデータベースインデックスとして使用すると、次のような利点があります。

優れた検索速度、時間計算量: B ツリーの検索パフォーマンスは、 O(h* logn) に等しく、h はツリーの高さ、n は各ノード内のキーワードの数です。
ディスク IO をできるだけ少なくすると、取得速度;
範囲検索をサポートできます。
B ツリー

B ツリーと B ツリーの違いは何ですか?

まず、B ツリーは 1 つのノードにデータを格納し、B ツリーはインデックス (アドレス) を格納するため、B ツリーの 1 つのノードには大量のデータを格納できませんが、1 つのノードにはB ツリーのには多くのインデックスを格納でき、B ツリーのリーフノードにはすべてのデータが格納されます。

2 番目、B ツリーの葉ノードは、範囲検索を容易にするために、データステージでリンクリストを使用して直列に接続されます。

B ツリーと B ツリーを比較すると、B ツリーノードにインデックスが格納されていることがわかります。ストレージ容量が限られている場合でも、単一ノードに多数のインデックスを格納できるため、B ツリー全体の高さが減り、ディスク IO が削減されます。次に、B ツリーのリーフノードは、実際のデータが保存される場所です。リーフノードは、リンクリストを使用して接続されます。リンクリスト自体は順序付けされており、データ範囲内で検索する場合に効率的です。そこでMysqlのインデックスには検索効率や範囲検索の性能が非常に優れたB-treeが使われています。

2. Innodb エンジンと Myisam エンジンの実装

Mysql の基礎となるデータエンジンはプラグインの形式で設計されており、最も一般的なものは Innodb エンジンと Myisam です。ユーザーは個人のニーズに応じてカスタマイズできますが、Mysql データテーブルの基礎となるエンジンとして別のエンジンを選択する必要があります。 B-treeはMysqlのインデックスのデータ構造として非常に適していると分析しましたが、データとインデックスをどのように構成するかについても設計が必要であり、設計思想の違いからInnodbやMyisamも登場し、それぞれが独自のパフォーマンスを発揮します。。

MyISAM は優れたデータ検索パフォーマンスを備えていますが、トランザクション処理はサポートしていません。 Innodb の最大の特徴は、ACID 互換のトランザクション関数をサポートし、行レベルのロックをサポートしていることです。 Mysql がテーブルを作成するときにエンジンを指定できます。たとえば、次の例では、user テーブルと user2 テーブルのデータエンジンとしてそれぞれ Myisam と Innodb が指定されています。

MYI: テーブル内のインデックスファイル (myisam インデックス)

生成されたファイルから、これら 2 つのエンジンの基礎となるデータとインデックスが取得されます。 MyISAM エンジンはデータとインデックスを分離し、各人が 1 つのファイルを持ちます (非クラスター化インデックスと呼ばれます)。Innodb エンジンはデータとインデックスを同じファイルに配置します (クラスター化インデックスと呼ばれます)。方法。以下では、これら 2 つのエンジンが B ツリーデータ構造にどのように依存して、基礎となる実装の観点からエンジンの実装を整理するかを分析します。

MyISAM エンジンの基盤となる実装 (非クラスター化インデックス方式)

MyISAM は非クラスター化インデックス方式、つまりデータとインデックスを使用します。ファイル上では 2 つの異なるものに分類されます。 MyISAM はテーブルを作成する際、主キーを KEY として主インデックス B ツリーを作成し、ツリーの葉ノードには対応するデータの物理アドレスが格納されます。この物理アドレスを取得したら、MyISAM データファイル内の特定のデータレコードを直接見つけることができます。

#フィールドにインデックスを追加すると、対応するフィールドのインデックスツリーも生成されます。インデックスツリーのノードは、対応するデータの物理アドレスも記録し、この物理アドレスを使用してデータファイル内の特定のデータレコードを見つけます。

Innodb エンジンの基盤となる実装 (クラスター化インデックスメソッド)

InnoDB はクラスター化インデックスメソッドであるため、データとインデックスは同じ場所に保存されます。ファイル。まず、InnoDB は左下図のように主キー ID を KEY としてインデックス B ツリーを構築し、B ツリーの葉ノードには主キー ID に対応するデータが格納されます。 select * from user_info where id=15, InnoDB 主キー ID インデックス B ツリーがクエリされ、対応する user_name='Bob' が検索されます。

これは、テーブルの作成時に InnoDB が主キー ID インデックスツリーを自動的に構築するときです。これが、Mysql がテーブルの作成時に主キーを指定する必要がある理由です。テーブル内のフィールドにインデックスを追加するとき、InnoDB はどのようにインデックスツリーを構築しますか?たとえば、user_name フィールドにインデックスを追加する場合、InnoDB は user_name インデックス B ツリーを作成します。user_name の KEY はノードに格納され、リーフノードに格納されるデータは主キー KEY になります。リーフには主キー KEY が格納されることに注意してください。主キー KEY を取得した後、InnoDB は主キーインデックスツリーに移動し、user_name インデックスツリーで見つかった主キー KEY に基づいて対応するデータを検索します。

InnoDB はストレージスペースを節約する必要があるため、実際には非常に簡単です。。テーブルには多数のインデックスが存在する可能性があります。InnoDB はインデックス付きフィールドごとにインデックスツリーを生成します。各フィールドのインデックスツリーに特定のデータが格納されている場合、このテーブルのインデックスデータファイルは非常に巨大になります (データが非常に冗長です)。ディスク領域を節約するという観点から見ると、各フィールドインデックスツリーに特定のデータを保存する必要は実際にはありません。この一見「不必要」な手順により、クエリのパフォーマンスが低下する代わりに、膨大なディスク領域が節約されます。これは非常に価値があります。

InnoDB と MyISAM の機能を比較したときに、MyISAM の方がクエリパフォーマンスが優れていると述べましたが、その理由は上記のインデックスファイルデータファイルの設計からわかります: MyISAM は物理アドレスを直接検索できるため、データはレコードですが、InnoDB がリーフノードをクエリした後、特定のデータを見つけるために主キーインデックスツリーを再度クエリする必要があります。つまり、MyISAM では 1 ステップでデータを見つけることができますが、InnoDB では 2 ステップ必要ですが、当然ながら MyISAM の方がクエリパフォーマンスは高くなります。

以上がmysqlインデックスが速い理由は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7338

Java チュートリアル

1627

CakePHP チュートリアル

1352

Laravel チュートリアル

1265

PHP チュートリアル

1210

Related knowledge

PHPのビッグデータ構造処理スキル May 08, 2024 am 10:24 AM

ビッグデータ構造の処理スキル: チャンキング: データセットを分割してチャンクに処理し、メモリ消費を削減します。ジェネレーター: データセット全体をロードせずにデータ項目を 1 つずつ生成します。無制限のデータセットに適しています。ストリーミング: ファイルやクエリ結果を 1 行ずつ読み取ります。大きなファイルやリモートデータに適しています。外部ストレージ: 非常に大規模なデータセットの場合は、データをデータベースまたは NoSQL に保存します。

PHP で MySQL クエリのパフォーマンスを最適化するにはどうすればよいですか? Jun 03, 2024 pm 08:11 PM

MySQL クエリのパフォーマンスは、検索時間を線形の複雑さから対数の複雑さまで短縮するインデックスを構築することで最適化できます。 PreparedStatement を使用して SQL インジェクションを防止し、クエリのパフォーマンスを向上させます。クエリ結果を制限し、サーバーによって処理されるデータ量を削減します。適切な結合タイプの使用、インデックスの作成、サブクエリの使用の検討など、結合クエリを最適化します。クエリを分析してボトルネックを特定し、キャッシュを使用してデータベースの負荷を軽減し、オーバーヘッドを最小限に抑えます。

PHP で MySQL のバックアップと復元を使用するにはどうすればよいですか? Jun 03, 2024 pm 12:19 PM

PHP で MySQL データベースをバックアップおよび復元するには、次の手順を実行します。データベースをバックアップします。 mysqldump コマンドを使用して、データベースを SQL ファイルにダンプします。データベースの復元: mysql コマンドを使用して、SQL ファイルからデータベースを復元します。

PHP を使用して MySQL テーブルにデータを挿入するにはどうすればよいですか? Jun 02, 2024 pm 02:26 PM

MySQLテーブルにデータを挿入するにはどうすればよいですか?データベースに接続する: mysqli を使用してデータベースへの接続を確立します。 SQL クエリを準備します。挿入する列と値を指定する INSERT ステートメントを作成します。クエリの実行: query() メソッドを使用して挿入クエリを実行します。成功すると、確認メッセージが出力されます。

MySQL 8.4 で mysql_native_password がロードされていないエラーを修正する方法 Dec 09, 2024 am 11:42 AM

MySQL 8.4 (2024 年時点の最新の LTS リリース) で導入された主な変更の 1 つは、「MySQL Native Password」プラグインがデフォルトで有効ではなくなったことです。さらに、MySQL 9.0 ではこのプラグインが完全に削除されています。この変更は PHP および他のアプリに影響します

PHP で MySQL ストアドプロシージャを使用するにはどうすればよいですか? Jun 02, 2024 pm 02:13 PM

PHP で MySQL ストアドプロシージャを使用するには: PDO または MySQLi 拡張機能を使用して、MySQL データベースに接続します。ストアドプロシージャを呼び出すステートメントを準備します。ストアドプロシージャを実行します。結果セットを処理します (ストアドプロシージャが結果を返す場合)。データベース接続を閉じます。

PHP を使用して MySQL テーブルを作成するにはどうすればよいですか? Jun 04, 2024 pm 01:57 PM

PHP を使用して MySQL テーブルを作成するには、次の手順が必要です。データベースに接続します。データベースが存在しない場合は作成します。データベースを選択します。テーブルを作成します。クエリを実行します。接続を閉じます。

Oracleデータベースとmysqlの違い May 10, 2024 am 01:54 AM

Oracle データベースと MySQL はどちらもリレーショナルモデルに基づいたデータベースですが、Oracle は互換性、スケーラビリティ、データ型、セキュリティの点で優れており、MySQL は速度と柔軟性に重点を置いており、小規模から中規模のデータセットに適しています。 ① Oracle は幅広いデータ型を提供し、② 高度なセキュリティ機能を提供し、③ エンタープライズレベルのアプリケーションに適しています。① MySQL は NoSQL データ型をサポートし、② セキュリティ対策が少なく、③ 小規模から中規模のアプリケーションに適しています。

See all articles