同じデータに対して日付ごとに異なるテーブルを作成するのが賢明でしょうか?

Question

次の列を持つ MYSQLInnoDB テーブルがあります (テーブル名と列名は変更されています): date (PK, date) var_a (PK, FK, INT) var_b (PK, FK, INT) rel_ab (10 進数) ここで、rel_ab は説明の列です。指定された日付における 2 つの変数 var_a と var_b の間の関係。 (var_a と var_b は異なるテーブルを参照します) データは毎日バッチでアップロードされ、1 日あたり合計約 700 万行になります。問題は、わずか数週間後に、新しい毎日のバッチをアップロードするたびに数時間かかるようになったことでした。明らかに

P粉781235689 · Answer

MySQL テーブルのアップロード速度の向上に役立つ可能性のあるソリューションがいくつかあります。

var_a と var_b のインデックスを削除します。これらのインデックスはクエリを高速化するために使用しているわけではないため、インデックスを削除するとアップロードプロセスの高速化に役立ちます。ただし、外部キー制約を使用する場合は、通常、外部キーに属する列にインデックスを保持することをお勧めします。

テーブルを日付でパーティション分割する: パーティション分割すると、データベースが特定のクエリに関連するパーティションのみをスキャンできるため、クエリのパフォーマンスが向上します。ただし、メンテナンスとバックアップも複雑になりますが、クエリがすでに良好に実行されている場合は必要ない可能性があります。

一括挿入メソッドを使用する: df.to_sql を使用して個々の行を挿入する代わりに、LOAD DATA INFILE や MySQL 一括挿入 API などの一括挿入メソッドを使用してみることができます。これは、特に一度に 1 行ずつではなくバッチでデータをアップロードできる場合、個別に挿入するよりも高速です。

別の圧縮アルゴリズムを使用する: 現在 zlib 圧縮を使用していますが、データにとってより高速または効率的な他の圧縮アルゴリズムがあります。さまざまな圧縮オプションを試して、アップロード速度が向上するかどうかを確認してください。

サーバーリソースを増やす: 予算とリソースがある場合は、サーバーハードウェアをアップグレードするかサーバーの数を増やすと、アップロード速度が向上する可能性があります。これはすべての人にとって実行可能なオプションではないかもしれませんが、他のオプションを使い果たした場合は検討する価値があります。

提案されたオプションに関する限り、外部キー制約を削除するとデータの整合性の問題が発生する可能性があるため、このアプローチはお勧めしません。クエリですでにパフォーマンスの問題が発生している場合は、日付によるパーティション分割が良い解決策になる可能性がありますが、クエリがすでに高速に実行されている場合は、その必要がない可能性があります。

P粉098979048 · Answer

アップロードを高速化するには、アップロードを削除してください。真剣な話、ファイル内の特定の日付の内容を正確に取得することしかやっていないのであれば、なぜデータをテーブルに入れる必要があるのでしょうか? (コメントでは、1 つのファイルが実際には複数のファイルであることが指摘されています。最初にそれらを結合することをお勧めします。)

テーブル内のデータが必要な場合は、これについて話し合いましょう...

インデックスを決定する前に、 すべての主要なクエリを 確認する必要があります。
PK 内の列の順序は、ロードとクエリの両方にとって重要です。
パーティショニングは読み込みには役立つかもしれませんが、クエリには役に立たない可能性があります。例外: 「古い」データは削除しますか?
作成テーブルを表示を提供してください。提供したコンテンツには微妙な点が含まれていない可能性があります。
読み込みはどのように行われますか?膨大な データをロード中 ?一度に 1 行ずつ挿入しないことを願っています。パンダの仕組みが分かりません。 (また、MySQL アクセスを「簡素化」する他の 99 個のパッケージがどのように機能するのかもわかりません。) それが舞台裏で何をしているのか理解してください。パフォーマンスを向上させるには、Pandas をバイパスする必要がある場合があります。一括ロードは、行ごとのロードより少なくとも 10 倍高速です。
ロード中に一時テーブルが必要であることは見たことがありません。多分。 (提案したように) FK を削除すると、クエリを実行して、他のテーブルの var_a と var_b の存在を確認できます。それが「アナログFK」です。
可能であれば、PK に基づいて受信データを並べ替えます。 (この が経済成長の鈍化の根本原因である可能性があります。)
テーブルの インデックスを暗示していると思います。
FLOAT を考慮したことがありますか?
MEDIUMINT [UNSIGNED] 1 日あたり少なくとも 7MB を節約します。

複数の「同一の」テーブルは常に賢明ではありません。テーブルは常に優れています。ただし、上で示唆したように、ゼロテーブルの方がまだ優れています。