ホームページ Java &#&チュートリアル MySQL データベースから重複データを削除する方法

MySQL データベースから重複データを削除する方法

Sep 27, 2024 am 06:14 AM

How to Delete Duplicate Data from a MySQL Database

Introduction

Lorsque vous travaillez avec des bases de données, en particulier dans des environnements où de grands ensembles de données sont constamment modifiés ou ajoutés, il est courant de rencontrer des données en double. Cela peut entraîner des inefficacités dans les performances des requêtes, des incohérences des données et des rapports inexacts. Heureusement, MySQL fournit des outils robustes pour identifier et supprimer ces doublons.

Dans ce blog, je vais vous présenter une approche efficace et complète pour détecter et supprimer les enregistrements en double dans une base de données MySQL. Les méthodes présentées ici sont applicables à la plupart des systèmes de bases de données relationnelles, mais nous nous concentrerons sur MySQL pour ce didacticiel.

Qu'est-ce qui constitue un doublon ?

Avant de plonger dans le code, il est crucial de définir ce qui est considéré comme un doublon. Dans de nombreux cas, les doublons ne sont pas simplement des enregistrements dans lesquels toutes les colonnes ont des valeurs identiques. Souvent, les doublons peuvent avoir les mêmes valeurs dans un sous-ensemble de colonnes clés. Par exemple, dans une table utilisateurs, deux enregistrements peuvent avoir le même e-mail mais différer dans d'autres champs comme le nom d'utilisateur ou la date d'inscription.

Par souci de simplicité, dans ce didacticiel, nous supposerons que les doublons sont des lignes dans lesquelles toutes les colonnes (ou un sous-ensemble de colonnes) correspondent.

Prenons l'exemple d'employés de table suivant :

id first_name last_name email salary
1 John Doe john@example.com 60000
2 Jane Smith jane@example.com 65000
3 John Doe john@example.com 60000
4 Alex Johnson alex@example.com 72000
5 John Doe john@example.com 60000

ここでは、id = 1、id = 3、および id = 5 の行が重複しています。私たちの目標は、コピーを 1 つだけ残して削除することです。

重複を削除するためのステップバイステップ ガイド

1. 重複レコードを特定する

最初のステップは、どのレコードが重複しているかを特定することです。これを行うには、一意である必要がある列ごとにレコードをグループ化する必要があります。この場合、first_name、last_name、および email の組み合わせが一意であると仮定しましょう。

次のクエリを使用して重複を検索できます:

SELECT first_name, last_name, email, COUNT(*)
FROM employees
GROUP BY first_name, last_name, email
HAVING COUNT(*) > 1;
ログイン後にコピー

このクエリは、first_name、last_name、および email 列に基づいてレコードをグループ化し、複数出現するグループ (つまり、重複) のみを表示します。

2. 保持または削除する重複行を選択します

重複を特定したら、それらを削除する方法が必要です。一般的なアプローチは、最小または最大の ID を持つレコードを保持し、その他のレコードを削除することです。 自己結合を使用してこれを実行し、各重複レコードを保持したいレコードと照合します。

例:
DELETE e1
FROM employees e1
JOIN employees e2
ON e1.first_name = e2.first_name
AND e1.last_name = e2.last_name
AND e1.email = e2.email
AND e1.id > e2.id;
ログイン後にコピー

このクエリは次のように機能します:

  • レコードの first_name、last_name、および email が同じである従業員テーブルに対して 自己結合 を実行します。
  • これにより、最小の ID を持つレコードを保持しながら、より高い ID (後で挿入されたことを意味する) を持つ行のみが削除されることが保証されます。

3. より複雑なシナリオには一時テーブルを使用します

状況によっては、最新のsignup_date や最高給与のレコードを保持するなど、どの重複を保持するかを決定するためのより複雑な条件が必要になる場合があります。

そのような場合は、一時テーブルを使用して保持したい行を保存し、他のすべてを削除できます。

例:
CREATE TEMPORARY TABLE temp_employees AS
SELECT * FROM employees e1
WHERE e1.id IN (
    SELECT MIN(id)
    FROM employees
    GROUP BY first_name, last_name, email
);

DELETE FROM employees
WHERE id NOT IN (SELECT id FROM temp_employees);
ログイン後にコピー

このクエリの動作は次のとおりです:

  1. first_name、last_name、および email の組み合わせごとに 1 つの一意のレコード (この場合は、最小の ID を持つレコード) のみを含む一時テーブル temp_employees を作成します。
  2. temp_employees テーブルに存在しないすべてのレコードを元のemployees テーブルから削除します。

このメソッドは、どの重複を保持するかを決定するための基準が、単に ID を使用するよりも複雑な場合に役立ちます。

4. 将来の重複を防ぐために固有の制約を追加します

重複をクリーンアップしたら、重複の発生を防ぐことをお勧めします。これを実現するには、一意制約を関連する列に追加します。

たとえば、同じ first_name、last_name、および email を持つ今後の行を防ぐには:

ALTER TABLE employees
ADD CONSTRAINT unique_employee
UNIQUE (first_name, last_name, email);
ログイン後にコピー

これにより、重複レコードを挿入しようとした場合にデータベースがエラーをスローすることが保証され、データの整合性が維持されます。

パフォーマンスに関する考慮事項

大規模なデータセットを操作する場合、重複の削除は時間がかかり、リソースを大量に消費する可能性があります。パフォーマンスを最適化するためのヒントをいくつか紹介します:

  • インデックス作成: フィルタリングに関係する列 (first_name、last_name、email など) がインデックス付けされていることを確認してください。これにより、プロセスが大幅に高速化されます。
  • バッチ削除: 多数の行を削除する場合は、長時間のロックを回避し、サーバーの負荷を軽減するために、バッチで実行することを検討してください。

一括削除の例:

DELETE e1
FROM employees e1
JOIN employees e2
ON e1.first_name = e2.first_name
AND e1.last_name = e2.last_name
AND e1.email = e2.email
AND e1.id > e2.id
LIMIT 1000;
ログイン後にコピー

すべての重複が削除されるまで、このクエリを複数回実行できます。

結論

MySQL データベース内の重複レコードの処理は一般的なタスクであり、処理を誤るとデータの損失や結果の一貫性の欠如につながる可能性があります。このブログで説明する手順を使用すると、データの整合性を維持しながら、自信を持って効率的に重複を削除できます。さらに、一意の制約を追加することで、今後の重複を確実に防止し、クリーンで信頼性の高いデータセットを維持することができます。

以上がMySQL データベースから重複データを削除する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

会社のセキュリティソフトウェアはアプリケーションの実行に失敗していますか?それをトラブルシューティングと解決する方法は? 会社のセキュリティソフトウェアはアプリケーションの実行に失敗していますか?それをトラブルシューティングと解決する方法は? Apr 19, 2025 pm 04:51 PM

一部のアプリケーションが適切に機能しないようにする会社のセキュリティソフトウェアのトラブルシューティングとソリューション。多くの企業は、内部ネットワークセキュリティを確保するためにセキュリティソフトウェアを展開します。 ...

名前を数値に変換してソートを実装し、グループの一貫性を維持するにはどうすればよいですか? 名前を数値に変換してソートを実装し、グループの一貫性を維持するにはどうすればよいですか? Apr 19, 2025 pm 11:30 PM

多くのアプリケーションシナリオでソートを実装するために名前を数値に変換するソリューションでは、ユーザーはグループ、特に1つでソートする必要がある場合があります...

MapsTructを使用したシステムドッキングのフィールドマッピングの問題を簡素化する方法は? MapsTructを使用したシステムドッキングのフィールドマッピングの問題を簡素化する方法は? Apr 19, 2025 pm 06:21 PM

システムドッキングでのフィールドマッピング処理は、システムドッキングを実行する際に難しい問題に遭遇することがよくあります。システムのインターフェイスフィールドを効果的にマッピングする方法A ...

Intellijのアイデアは、ログを出力せずにSpring Bootプロジェクトのポート番号をどのように識別しますか? Intellijのアイデアは、ログを出力せずにSpring Bootプロジェクトのポート番号をどのように識別しますか? Apr 19, 2025 pm 11:45 PM

intellijideaultimatiateバージョンを使用してスプリングを開始します...

エンティティクラス変数名をエレガントに取得して、データベースクエリ条件を構築する方法は? エンティティクラス変数名をエレガントに取得して、データベースクエリ条件を構築する方法は? Apr 19, 2025 pm 11:42 PM

データベース操作にMyBatis-Plusまたはその他のORMフレームワークを使用する場合、エンティティクラスの属性名に基づいてクエリ条件を構築する必要があることがよくあります。あなたが毎回手動で...

Javaオブジェクトを配列に安全に変換する方法は? Javaオブジェクトを配列に安全に変換する方法は? Apr 19, 2025 pm 11:33 PM

Javaオブジェクトと配列の変換:リスクの詳細な議論と鋳造タイプ変換の正しい方法多くのJava初心者は、オブジェクトのアレイへの変換に遭遇します...

eコマースプラットフォームSKUおよびSPUデータベースデザイン:ユーザー定義の属性と原因のない製品の両方を考慮する方法は? eコマースプラットフォームSKUおよびSPUデータベースデザイン:ユーザー定義の属性と原因のない製品の両方を考慮する方法は? Apr 19, 2025 pm 11:27 PM

eコマースプラットフォーム上のSKUおよびSPUテーブルの設計の詳細な説明この記事では、eコマースプラットフォームでのSKUとSPUのデータベース設計の問題、特にユーザー定義の販売を扱う方法について説明します。

Redisキャッシュソリューションを使用して、製品ランキングリストの要件を効率的に実現する方法は? Redisキャッシュソリューションを使用して、製品ランキングリストの要件を効率的に実現する方法は? Apr 19, 2025 pm 11:36 PM

Redisキャッシュソリューションは、製品ランキングリストの要件をどのように実現しますか?開発プロセス中に、多くの場合、ランキングの要件に対処する必要があります。

See all articles