php - 100,000 個のデータをインポートします。データベースには 100 万個のデータがあります。重複を判断するにはどうすればよいですか?

Question

具体的な要件: データベース内に 100,000 個のデータが存在する; インポートするデータがデータ テーブルに存在する場合、問題は、データのインポートを迅速に行う方法です。各データを比較する必要があるため、インポートは同時に失敗します データのロールバックを実行しますか?

phpcn_u1582 · Answer

ターゲットテーブルをターゲット（100万データ）、インポートするテーブルをソース（10万データ）と呼ぶとします。
この例で消費される時間の大部分は、2 つのテーブルのレコードが同じであるかどうかを判断することであり、おそらく作成者は、それらが同一であるとみなされる前に すべてのフィールド (ID フィールドを除く) が同じであることを望んでいるのだと思います。同じ記録。

各レコードのハッシュに似た値を計算し、ターゲットとソースの新しく作成されたフィールドに格納できます (hashValue)。計算量は 110 万です。

次に、次のステートメントを使用してデータをインポートします
リーリー

我想大声告诉你 · Answer

取引効率を考えると高くないといけません

個人的なアイデアについては以下を参照してください:

1.まず挿入するデータが存在するかどうかを確認します

ID in('k1,k2,k3');

のテーブルからIDを選択

2. データベースに SQL を書き込みます

10w データ、1 SQL、挿入速度、2 秒以内に解決

以前書いた、一度に20wのデータ挿入を3秒で完了するように最適化した記事を読むことができます
https://my.oschina.net/popular...

滿天的星座 · Answer

私の個人的な考えは、インポート時に重みを判断し、一意性を確保するために一意のインデックスを確立することが重要です。バッチインポートについては、@石记の方法を参照してください。

怪我咯 · Answer

この問題をもとに、その後のインポート時に大きな問題が発生し、データインポートが遅かったので、これについて記事を書きました:

/a/11...

後で見て誰かの参考になれば幸いです。