MySQL 데이터베이스에서 중복 데이터를 삭제하는 방법
소개
데이터베이스 작업 시, 특히 대규모 데이터세트가 지속적으로 수정되거나 추가되는 환경에서는 중복된 데이터가 발생하는 경우가 많습니다. 이는 쿼리 성능의 비효율성, 데이터 불일치 및 부정확한 보고서로 이어질 수 있습니다. 다행스럽게도 MySQL은 이러한 중복 항목을 식별하고 제거할 수 있는 강력한 도구를 제공합니다.
이 블로그에서는 MySQL 데이터베이스에서 중복 레코드를 감지하고 중복 레코드를 제거하는 효율적이고 포괄적인 접근 방식을 안내해 드리겠습니다. 여기에 나와 있는 방법은 대부분의 관계형 데이터베이스 시스템에 적용 가능하지만, 이 튜토리얼에서는 MySQL에 중점을 둘 것입니다.
중복을 구성하는 것은 무엇입니까?
코드를 살펴보기 전에 중복의 조건을 정의하는 것이 중요합니다. 많은 경우 중복은 모든 열의 값이 동일한 단순한 레코드가 아닙니다. 종종 중복 항목은 키 열의 하위 집합에 동일한 값을 가질 수 있습니다. 예를 들어 users 테이블에서 두 레코드의 이메일은 동일하지만 사용자 이름 또는 signup_date와 같은 다른 필드가 다를 수 있습니다.
단순화를 위해 이 튜토리얼에서는 중복 항목이 모든 열(또는 열의 하위 집합)이 일치하는 행이라고 가정합니다.
다음 직원 테이블 예를 살펴보세요.
id | first_name | last_name | salary | |
---|---|---|---|---|
1 | John | Doe | john@example.com | 60000 |
2 | Jane | Smith | jane@example.com | 65000 |
3 | John | Doe | john@example.com | 60000 |
4 | Alex | Johnson | alex@example.com | 72000 |
5 | John | Doe | john@example.com | 60000 |
여기서 id = 1, id = 3, id = 5인 행이 중복됩니다. 우리의 목표는 사본 하나만 보관하면서 해당 항목을 제거하는 것입니다.
중복 제거를 위한 단계별 가이드
1. 중복 기록 식별
첫 번째 단계는 어떤 기록이 중복되었는지 식별하는 것입니다. 이렇게 하려면 고유해야 하는 열을 기준으로 레코드를 그룹화해야 합니다. 이 경우에는 first_name, last_name, email의 조합이 고유해야 한다고 가정합니다.
다음 쿼리를 사용하여 중복 항목을 찾을 수 있습니다.
SELECT first_name, last_name, email, COUNT(*) FROM employees GROUP BY first_name, last_name, email HAVING COUNT(*) > 1;
이 쿼리는 first_name, last_name 및 email 열을 기준으로 레코드를 그룹화하고 두 번 이상 발생(예: 중복)된 그룹만 표시합니다.
2. 유지하거나 삭제할 중복 행 선택
중복 항목을 식별한 후 이를 제거하는 방법이 필요합니다. 일반적인 접근 방식은 가장 작거나 가장 큰 ID로 레코드를 유지하고 나머지는 삭제하는 것입니다. 셀프 조인을 사용하여 각 중복 레코드를 보관하려는 레코드와 일치시킬 수 있습니다.
예:
DELETE e1 FROM employees e1 JOIN employees e2 ON e1.first_name = e2.first_name AND e1.last_name = e2.last_name AND e1.email = e2.email AND e1.id > e2.id;
이 쿼리는 다음과 같이 작동합니다.
- 이름, 성, 이메일이 동일한 직원 테이블에 대해 셀프 조인을 수행합니다.
- 가장 작은 ID의 기록을 유지하면서 더 높은 ID(나중에 삽입됨)를 가진 행만 삭제되도록 합니다.
3. 더 복잡한 시나리오에는 임시 테이블 사용
어떤 상황에서는 가장 최근의 가입 날짜나 최고 연봉의 기록을 유지하는 등 어떤 중복 항목을 유지할지 결정하는 데 더 복잡한 조건이 있을 수 있습니다.
이러한 경우 임시 테이블을 사용하여 유지하려는 행을 저장한 다음 나머지는 모두 삭제할 수 있습니다.
예:
CREATE TEMPORARY TABLE temp_employees AS SELECT * FROM employees e1 WHERE e1.id IN ( SELECT MIN(id) FROM employees GROUP BY first_name, last_name, email ); DELETE FROM employees WHERE id NOT IN (SELECT id FROM temp_employees);
이 쿼리의 기능은 다음과 같습니다.
- first_name, last_name 및 email(이 경우 가장 작은 ID를 가진 레코드)의 각 조합에 대해 하나의 고유 레코드만 포함하는 임시 테이블 temp_employees를 생성합니다.
- temp_employees 테이블에 없는 원래 직원 테이블의 모든 레코드를 삭제합니다.
이 방법은 단순히 ID를 사용하는 것보다 어떤 복제본을 보관할지 결정하는 기준이 더 복잡할 때 유용합니다.
4. 향후 중복을 방지하기 위해 고유한 제약 조건 추가
중복 항목을 정리한 후에는 중복이 발생하지 않도록 하는 것이 좋습니다. 관련 열에 고유 제약조건을 추가하면 이를 달성할 수 있습니다.
예를 들어, 이름, 성, 이메일이 동일한 향후 행을 방지하려면 다음을 수행하세요.
ALTER TABLE employees ADD CONSTRAINT unique_employee UNIQUE (first_name, last_name, email);
이렇게 하면 중복 레코드를 삽입하려고 시도할 경우 데이터베이스에서 오류가 발생하여 데이터 무결성이 유지됩니다.
성능 고려 사항
대규모 데이터 세트로 작업할 때 중복 삭제는 속도가 느리고 리소스 집약적일 수 있습니다. 성능 최적화를 위한 몇 가지 팁은 다음과 같습니다.
- 색인 생성: 필터링과 관련된 열(예: 이름, 성, 이메일)의 색인이 생성되었는지 확인하세요. 이렇게 하면 프로세스 속도가 크게 빨라질 수 있습니다.
- 일괄 삭제: 많은 수의 행을 삭제하는 경우 긴 잠금을 방지하고 서버의 부하를 줄이기 위해 일괄 삭제를 고려하세요.
일괄 삭제 예시:
DELETE e1 FROM employees e1 JOIN employees e2 ON e1.first_name = e2.first_name AND e1.last_name = e2.last_name AND e1.email = e2.email AND e1.id > e2.id LIMIT 1000;
모든 중복 항목이 제거될 때까지 이 쿼리를 여러 번 실행할 수 있습니다.
결론
MySQL 데이터베이스에서 중복 레코드를 처리하는 것은 일반적인 작업이며, 잘못 처리할 경우 데이터 손실이나 일관되지 않은 결과가 발생할 수 있습니다. 이 블로그에 설명된 단계를 사용하면 데이터 무결성을 유지하면서 중복 항목을 확실하고 효율적으로 제거할 수 있습니다. 또한 고유한 제약 조건을 추가하면 향후 중복을 방지하여 깔끔하고 안정적인 데이터 세트를 유지할 수 있습니다.
위 내용은 MySQL 데이터베이스에서 중복 데이터를 삭제하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

일부 애플리케이션이 제대로 작동하지 않는 회사의 보안 소프트웨어에 대한 문제 해결 및 솔루션. 많은 회사들이 내부 네트워크 보안을 보장하기 위해 보안 소프트웨어를 배포 할 것입니다. ...

많은 응용 프로그램 시나리오에서 정렬을 구현하기 위해 이름으로 이름을 변환하는 솔루션, 사용자는 그룹으로, 특히 하나로 분류해야 할 수도 있습니다.

시스템 도킹의 필드 매핑 처리 시스템 도킹을 수행 할 때 어려운 문제가 발생합니다. 시스템의 인터페이스 필드를 효과적으로 매핑하는 방법 ...

IntellijideAultimate 버전을 사용하여 봄을 시작하십시오 ...

데이터베이스 작업에 MyBatis-Plus 또는 기타 ORM 프레임 워크를 사용하는 경우 엔티티 클래스의 속성 이름을 기반으로 쿼리 조건을 구성해야합니다. 매번 수동으로 ...

Java 객체 및 배열의 변환 : 캐스트 유형 변환의 위험과 올바른 방법에 대한 심층적 인 논의 많은 Java 초보자가 객체를 배열로 변환 할 것입니다 ...

전자 상거래 플랫폼에서 SKU 및 SPU 테이블의 디자인에 대한 자세한 설명이 기사는 전자 상거래 플랫폼에서 SKU 및 SPU의 데이터베이스 설계 문제, 특히 사용자 정의 판매를 처리하는 방법에 대해 논의 할 것입니다 ...

Redis 캐싱 솔루션은 제품 순위 목록의 요구 사항을 어떻게 인식합니까? 개발 과정에서 우리는 종종 a ... 표시와 같은 순위의 요구 사항을 처리해야합니다.
