MySQL에서는 데이터를 검색할 때 먼저 인덱스에서 해당 값을 찾은 다음, 일치하는 인덱스 레코드를 기반으로 해당 데이터 행을 찾으면 됩니다. 다음 쿼리 문을 실행하세요:
SELECT * FROM USER WHERE uid = 5;
로그인 후 복사
uid에 구축된 인덱스가 있는 경우 MySQL은 인덱스를 사용하여 먼저 uid 5가 있는 행을 찾습니다. 이는 MySQL이 먼저 인덱스의 값으로 검색한 다음 모든 데이터를 반환한다는 의미입니다. 이 값을 포함하는 행입니다.
1.2 MySQL 인덱스의 공통 데이터 구조
MySQL 인덱스는 서버가 아닌 스토리지 엔진 수준에서 구현됩니다. 따라서 통합된 인덱싱 표준이 없습니다. 서로 다른 스토리지 엔진의 인덱스는 다르게 작동합니다.
1.2.1 B-Tree
대부분의 MySQL 엔진은 이러한 종류의 인덱스 B-트리를 지원합니다. 여러 스토리지 엔진이 동일한 유형의 인덱스를 지원하더라도 기본 구현은 다를 수 있습니다. 예를 들어 InnoDB는 B+Tree를 사용합니다.
스토리지 엔진은 다양한 성능과 장점을 지닌 다양한 방식으로 B-Tree를 구현합니다. 예를 들어 MyISAM은 접두사 압축 기술을 사용하여 인덱스를 더 작게 만들고, InnoDB는 원래 데이터 형식에 따라 데이터를 저장하는 반면, MyISAM 인덱스는 데이터의 물리적 위치에 따라 인덱스된 행을 참조합니다. 요소.
B-Tree의 모든 값은 순차적으로 저장되며, 각 리프 페이지에서 루트까지의 거리는 동일합니다. 다음 그림은 InnoDB 인덱스의 작동 방식을 대략적으로 보여줍니다. MyISAM에서 사용하는 구조는 다릅니다. 그러나 기본 구현은 비슷합니다.
예제 다이어그램 설명:
각 노드는 하나의 디스크 블록을 차지합니다. 한 노드에는 두 개의 오름차순 키워드가 있고 하위 트리의 루트 노드에 대한 세 개의 포인터가 하위 노드가 있는 디스크 블록을 저장합니다. 의 주소입니다. 두 개의 키워드로 나누어진 세 개의 범위 필드는 세 개의 포인터가 가리키는 하위 트리의 데이터의 범위 필드에 해당합니다. 루트 노드를 예로 들면 키워드는 16과 34이고, P1 포인터가 가리키는 하위 트리의 데이터 범위는 16 미만이고, P2 포인터가 가리키는 하위 트리의 데이터 범위는 16~34이며, 데이터는 P3 포인터가 가리키는 하위 트리의 범위가 34보다 큽니다. 키워드 검색 과정:
루트 노드를 기준으로 디스크 블록 1을 찾아 메모리로 읽어옵니다. [디스크 I/O 작업 1차]
비교 키워드 28 간격(16,34)에서 디스크 블록 1의 포인터 P2를 찾습니다.
P2 포인터를 기준으로 디스크 블록 3을 찾아 메모리로 읽어옵니다. [디스크 I/O 작업 2차]
비교 키워드 28 간격(25,31)에서 디스크 블록 3의 포인터 P2를 찾습니다.
P2 포인터를 기준으로 디스크 블록 8을 찾아 메모리로 읽어옵니다. [디스크 I/O 작업 3번째]
디스크 블록 8의 키워드 목록에서 키워드 28을 찾았습니다.
단점:
각 노드에는 키가 있고 데이터도 포함되어 있으며, 각 페이지의 저장 공간이 제한되어 있으므로 데이터가 상대적으로 크면 각 노드에 저장되는 키 수가 작아집니다. ;
저장된 데이터의 양이 많으면 깊이가 커지고 쿼리 중 디스크 IO 횟수가 늘어나 쿼리 성능에 영향을 미칩니다.
1.2.2 B+트리 인덱스
B+ 트리는 B-트리의 변형입니다. B-트리와의 차이점: B+ 트리는 리프 노드에만 데이터를 저장하고, 리프가 아닌 노드에는 키 값과 포인터만 저장합니다.
B+ 트리에는 두 개의 포인터가 있는데, 하나는 루트 리프 노드를 가리키고 다른 하나는 가장 작은 키워드가 있는 리프 노드를 가리키며, 모든 리프 노드(즉, 데이터 노드) 사이에는 체인 링 구조가 있으므로 B+ can 트리는 두 가지 검색 작업을 수행합니다. 하나는 구성 요소에 대한 범위 검색이고 다른 하나는 루트 노드에서 시작하는 무작위 검색입니다.
B* 트리는 B+ 번호와 유사하지만, 차이점은 B* 번호도 리프가 아닌 노드 사이에 체인 링 구조를 갖는다는 것입니다.
1.2.3 해시 인덱스
해시 인덱스는 해시 테이블을 기반으로 구현되며 인덱스의 모든 열을 정확하게 일치하는 쿼리만 유효합니다. 각 데이터 행에 대해 스토리지 엔진은 모든 인덱스 열에 대한 해시 코드를 계산합니다. 해시 코드는 더 작은 값이며 다른 키 값을 가진 행에 대해 계산된 해시 코드도 다릅니다. 해시 인덱스는 인덱스의 모든 해시 코드와 해시 테이블의 각 데이터 행에 대한 포인터를 저장합니다.
MySQL에서는 Memory의 기본 인덱스 유형만 해시 인덱스를 사용하며, 메모리는 B-Tree 인덱스도 지원합니다. 동시에 메모리 엔진은 고유하지 않은 해시 인덱스를 지원합니다. 여러 열의 해시 값이 동일한 경우 인덱스는 연결된 목록의 동일한 해시 항목에 여러 포인터를 저장합니다. 해시맵과 유사합니다.
장점: 인덱스 자체는 해당 해시 값만 저장하면 되므로 인덱스 구조가 매우 컴팩트하고 해시 검색 속도가 매우 빠릅니다. 단점:
해시 저장소를 사용하는 경우 모든 데이터 파일을 메모리에 추가해야 하며 이로 인해 더 많은 메모리 공간이 소모됩니다.
해시 인덱스 데이터가 순서대로 저장되지 않으므로 사용할 수 없습니다.
정렬용
모든 쿼리가 등가 쿼리라면 해싱은 정말 빠르지만, 기업이나 실제 작업 환경에서는 등가 쿼리보다 범위 내에서 검색해야 할 데이터가 더 많아 해싱이 적합하지 않습니다.
해시 충돌이 많으면 인덱스 유지 관리 비용도 매우 높을 것입니다. 이는 HashMap이 이후 단계에서 레드-블랙 트리를 추가하여 해시 충돌을 해결하는 문제이기도 합니다.
2 고성능 인덱스; 전략
2.1 클러스터형 인덱스와 비클러스터형 인덱스
클러스터형 인덱스
는 별도의 인덱스 유형이 아니라 데이터 저장 방식입니다. InnoDB 스토리지 엔진에서 클러스터형 인덱스는 실제로 키 값과 데이터 행을 같은 구조. 테이블에 클러스터형 인덱스가 있는 경우 해당 데이터 행은 실제로 인덱스의 리프 페이지에 저장됩니다. 데이터 행은 동시에 여러 위치에 저장될 수 없기 때문에 테이블에는 하나의 클러스터형 인덱스만 있을 수 있습니다(인덱스 적용 범위는 여러 클러스터형 인덱스의 상황을 시뮬레이션할 수 있음).
클러스터형 인덱스의 장점:
인덱스와 데이터가 동일한 트리에 저장되므로 데이터 액세스가 더 빠릅니다. 포함 인덱스 스캔을 사용하는 쿼리는 기본 페이지 노드 키 값을 직접 사용할 수 있습니다.
단점: 클러스터형 데이터는 IO 집약적 애플리케이션의 성능을 극대화합니다. 데이터가 모두 메모리에 있는 경우 클러스터형 인덱스는 기본 키에 따라 삽입 순서에 따라 크게 달라지지 않습니다. 가장 빠른 방법은 업데이트된 각 행을 새로운 위치로 이동시키기 때문에 비용이 많이 듭니다. 클러스터형 인덱스 기반 테이블은 행을 이동해야 할 때 문제를 일으킬 수 있습니다. 페이지 분할 문제가 발생할 수 있습니다. 특히 행이 희박하거나 페이지 분할로 인해 데이터 저장이 중단되는 경우 클러스터형 인덱스로 인해 전체 테이블 검색 속도가 느려질 수 있습니다. 별도로 저장2.2 접두사 인덱스매우 긴 문자열을 인덱스해야 하는 경우가 있는데, 이로 인해 인덱스가 크고 느려지는 경우가 많습니다. 일반적으로 열 시작 부분에 문자열의 일부를 사용하면 인덱스 공간이 크게 절약됩니다. 이를 통해 인덱스 효율성은 향상되지만 인덱스 선택성은 감소합니다. 인덱스 선택성은 전체 데이터 테이블 레코드 수에 대한 고유 인덱스 값(카디널리티라고도 함)의 비율을 의미하며 범위는 T와 1 사이입니다. 인덱스의 선택성이 높을수록 쿼리 효율성도 높아집니다. 인덱스의 선택성이 높을수록 MySQL은 검색 시 더 많은 행을 필터링할 수 있기 때문입니다. 일반적으로 특정 열 접두사의 선택도는 쿼리 성능을 충족할 만큼 높습니다. 그러나 BLOB, TEXT, VARCHAR 유형의 열의 경우 MySQL에서는 전체 길이에 대한 인덱싱을 허용하지 않으므로 접두사 인덱스를 사용해야 합니다. 이 방법을 사용하는 비결은 높은 선택성을 보장할 만큼 길지만 너무 길지는 않은 접두사를 선택하는 것입니다. 예제테이블 구조 및 데이터는 MySQL 공식 웹사이트 또는 GitHub에서 다운로드하세요. 도시 테이블 열
필드 이름
의미
city_id
도시 기본 키 ID
city
도시 이름
국가 _id
국가 ID
last_update :
작성 또는 마지막 업데이트 시간
--计算完整列的选择性
select count(distinct left(city,3))/count(*) as sel3,
count(distinct left(city,4))/count(*) as sel4,
count(distinct left(city,5))/count(*) as sel5,
count(distinct left(city,6))/count(*) as sel6,
count(distinct left(city,7))/count(*) as sel7,
count(distinct left(city,8))/count(*) as sel8
from citydemo;
--该查询为索引的第一列提供了常量条件,而使用第二列进行排序,将两个列组合在一起,就形成了索引的最左前缀
explain select rental_id,staff_id from rental
where rental_date='2005-05-25' order by inventory_id desc
--下面的查询不会利用索引
explain select rental_id,staff_id from rental
where rental_date>'2005-05-25' order by rental_date,inventory_id
로그인 후 복사
5. union all,in,or都能够使用索引,但是推荐使用in
explain select * from actor where actor_id = 1 union all select * from actor where actor_id = 2;
explain select * from actor where actor_id in (1,2);
explain select * from actor where actor_id = 1 or actor_id =2;