テーブルをシャードまたはパーティション化する前の制限事項

Question

データベース システム設計は初めてです。多くの記事を読んだ後、シャーディングやパーティション化を行わずに 1 つのテーブルを持つ必要がある制限は何なのか、本当に混乱しました。一般的な答えを提供するのが非常に難しいことは承知しています。行サイズ、データ型 (文字列、BLOB など)、アクティブなクエリの数、クエリの種類、インデックスの再読み取り/再書き込み、予想される待ち時間などの要因によって異なります。誰かが次のような質問をします。10 億のデータと数百万の行が毎日追加される場合、あなたは何をしますか?このような大規模なデータベースの場合、4 つの読み取り、1 つの書き込み、2 つの更新クエリの待ち時間は 5 ミリ秒未満である必要があります。 10個しかない場合

P粉401901266 · Answer

MySQL に関するいくつかの回答。すべてのデータベースはディスク容量、ネットワーク遅延などの影響を受けるため、他のエンジンも同様である可能性があります。

行数に関係なく、「ポイントクエリ」(適切なインデックスを使用して行を取得する) には数ミリ秒かかります。
実行に数時間、場合によっては数日かかる SELECT を作成することも可能です。したがって、クエリがこのように病的であるかどうかを理解する必要があります。 (これは「遅延」が大きい例だと思います。)
「シャーディング」は、単一サーバー上で必要な書き込み回数を維持できない場合に必要です。
レプリケーションを使用し、読み取りをレプリカに送信することで、大規模な読み取りを「無限に」スケーリングできます。
PARTITIONing (特に MySQL では) の用途はほとんどありません。詳細: パーティション
INDEX はパフォーマンスにとって非常に重要です。
データウェアハウスアプリケーションの場合、大規模なパフォーマンスを実現するには「概要テーブル」の構築と維持が重要です。 (他のエンジンにはいくつかの組み込みツールがあります。)
1 日に 100 万行を挿入しても問題はありません。 (もちろん、一部のスキーマ設計によってはこの問題が発生する可能性があります。) 経験則: 100/秒は問題ないかもしれませんが、1000/秒は可能かもしれませんが、それを超えると難しくなります。 #高速取り込みの詳細
active 接続がある場合、スループットが低下し、遅延が無限大になる傾向があることが示されています。だから何。アプリケーションをしばらく実行した後に actual クエリをキャプチャすることが、おそらく最良のベースラインです。しかし、その用途はまだ限られています。

大規模なデータベースにはいくつかの異なるタイプがあり、それぞれにいくつかの異なる特性があります。

データウェアハウス (センサー、ログなど) - テーブルの「最後」に追加、効率的な「レポート」用のサマリーテーブル、巨大な「ファクト」テーブル (オプションのチャンクアーカイブ付き)、特定の「ディメンションテーブル」。
検索 (製品、Web ページなど) - 問題の EAV; フルテキストが役立つことがよくあります。
銀行業務、注文処理 - これは、ACID 機能とトランザクション処理の必要性にとって非常に重要です。
メディア (画像とビデオ) -- 検索 (など) を適度に高速にしながら、巨大なオブジェクトを保存する方法。
「最も近いものを検索」 - 2D インデックス、SPATIAL、または何らかのテクニックが必要です ここで