建立索引的原则 - 以innodb为例
一、写在前面
随着开发、测试任务进入尾声,大家都在整理一些项目发布前的一些准备工作,其中一个重要的工作就是为之前写的一些sql语句建立索引,这高并发、高访问量的环境下是非常有必要的,建立一个好的索引能够极大地提高sql语句的查询效率,那么问题来了,到底什么是索引,怎样才能建立一个好的索引呢?本文以mysql Innodb存储引擎为例,结合实际的项目来看一下,如何建立一个好的而索引。
二、索引定义
MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。提取句子主干,就可以得到索引的本质:索引是数据结构。
我们知道,数据库查询是数据库的最主要功能之一,例如下面的SQL语句:SELECT * FROM test_table WHERE id = 99 ;可以从表test_table中获得id为99的数据记录。
我们都希望查询数据的速度能尽可能的快,因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找(linear search),遍历test_table然后逐行匹配id的值是否是99,这种复杂度为O(n)的算法在数据量很大时显然是糟糕的,好在计算机科学的发展提供了很多更优秀的查找算法,例如二分查找(binary search)、二叉树查找(binary tree search)等。如果稍微分析一下会发现,每种查找算法都只能应用于特定的数据结构之上,例如二分查找要求被检索数据有序,而二叉树查找只能应用于二叉查找树上,但是数据本身的组织结构不可能完全满足各种数据结构(例如,理论上不可能同时将两列都按顺序进行组织),所以,在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。
举上面的例子主要是为了简单说明地说明索引的作用,包括mysql Innodb在内的大部分数据库系统及文件系统并没有选择二叉树结构作为索引,而是采用了B-Tree或其变种B+Tree作为索引结构,这种索引结构可以最大限度地减少查找过程中磁盘I/O的存取次数,关于什么是B-Tree或B+Tree以及选择它们做数据库索引结构的原因,大家可以自行去学习。下面我们首先介绍下mysql Innodb引擎的两种B+Tree索引。
三、Mysql Innodb B+Tree索引
一种是主键索引,主键索引即聚集索引(Cluster Index),它不仅有主键,而且有主键所属的全部数据,所以在Innodb中,主键索引即数据;
一种是列值为Key,主键位置为Value即 (列值, 主键位置) 的非主键索引(Secondary Index)
Innodb属于索引组织表,所有的数据全部挂在主键叶子节点下。所以如果不能保证主键的插入顺序,那么会发生大量的主键节点分裂,产生大量的I/O操作。另外Innodb规定单个索引字段的长度不得超过768字节,否则截断超出长度不放入索引。 Innodb的非主键索引全部都指向主键索引,查找非主键索引无法获得整行数据,需要通过叶子节点的指针查到其主键索引的位置才能获得整行数据,所以主键索引必须设计得尽可能小,否则非主键索引将会非常的大。
四、建立索引的原则
下面我们看一下建立一个好的索引需要遵循的原则,并结合具体的例子来做说明;
1. 最左前缀匹配原则,非常重要的原则,mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引则都可以用到,a,b,d的顺序可以任意调整。
2. =和in可以乱序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序,mysql的查询优化器会帮你优化成索引可以识别的形式。
3. 尽量选择区分度高的列作为索引,区分度的公式是count(distinct col)/count(*),表示字段不重复的比例,比例越大我们扫描的记录数越少,唯一键的区分度是1,而一些状态、性别字段可能在大数据面前区分度就是0,那可能有人会问,这个比例有什么经验值吗?使用场景不同,这个值也很难确定,一般需要join的字段我们都要求是0.1以上,即平均1条扫描10条记录
4. 索引列不能参与计算,保持列“干净”,比如from_unixtime(create_time) = ‘2015-08-14’就不能使用到索引,原因很简单,b+树中存的都是数据表中的字段值,但进行检索时,需要把所有元素都应用函数才能比较,显然成本太大。所以语句应该写成create_time = unix_timestamp(‘2015-08-14’)。
5. 尽量的扩展索引,不要新建索引。比如表中已经有a的索引,现在要加(a,b)的索引,那么只需要修改原来的索引即可。
6. 在order by或者group by子句中,如果想通过索引来进行排序,所建索引列的顺序必须与order by或者group by子句的顺序一致,并且所有列的排序方向(倒序或者正序)都一样;如果查询关联多张表,则只有order by子句引用的字段全部来自第一张表时,才能利用索引来排序;order by或者group by语句与查询型语句的限制是一样的:需要满足索引的最左前缀原则;否则mysql就要执行排序操作,无法利用索引来排序;(有一种情况order by或者group by子句可以不满足最左前缀原则,就是其前导为常量的时候,如果where或者join对这些列指定了常量,就可以弥补索引的不足)。
五、举例
语句1:
语句2:
对于这两条语句,如果单独进行考虑的话,大家可能会建立两个索引;
针对语句1建立(status,netting_batch_no,debtor_agent_member_id);
针对语句2建立(netting_batch_no,debtor_agent_member_id,transaction_currency);
如果综合考虑来看的话,其实一个索引就够了,即(netting_batch_no,debtor_agent_member_id),这里没必要将status或者transaction_currency字段放到索引中,因为这两个字段的区分度太差;
根据建立索引的原则2,语句1是可以走到这个索引的;
根据建立索引的原则1,语句2也是可以走到这个索引的;
索引不是越多越好,建立过多的索引会增加数据库内存或者磁盘的消耗,并且会影响到得插入、删除等操作的性能,索引在建立索引时要遵循索引建立的原则,通盘考虑;
以上就是建立索引的原则 - 以innodb为例的内容,更多相关内容请关注PHP中文网(www.php.cn)!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

InnoDB ialah salah satu enjin pangkalan data MySQL Ia kini merupakan enjin storan lalai MySQL dan salah satu piawaian untuk keluaran binari oleh MySQL AB InnoDB menggunakan sistem kebenaran dwi-trek, satu adalah keizinan GPL dan satu lagi adalah perisian proprietari kebenaran. InnoDB ialah enjin pilihan untuk pangkalan data transaksi dan menyokong jadual keselamatan transaksi (ACID);

InnoDB ialah enjin storan yang menyimpan data dalam jadual pada cakera, jadi data kami akan tetap wujud walaupun selepas ditutup dan dimulakan semula. Proses sebenar pemprosesan data berlaku dalam ingatan, jadi data dalam cakera perlu dimuatkan ke dalam memori Jika ia memproses permintaan tulis atau pengubahsuaian, kandungan dalam memori juga perlu dimuat semula ke cakera. Dan kita tahu bahawa kelajuan membaca dan menulis ke cakera adalah sangat perlahan, iaitu beberapa urutan magnitud yang berbeza daripada membaca dan menulis dalam ingatan Jadi apabila kita ingin mendapatkan rekod tertentu dari jadual, adakah enjin storan InnoDB perlu membaca rekod dari cakera satu demi satu? Kaedah yang digunakan oleh InnoDB adalah untuk membahagikan data kepada beberapa halaman, dan menggunakan halaman sebagai unit asas interaksi antara cakera dan memori Saiz halaman dalam InnoDB secara amnya 16

1. Gulung semula dan pasang semula mysql Untuk mengelakkan masalah mengimport data ini dari tempat lain, mula-mula buat sandaran fail pangkalan data perpustakaan semasa (/var/lib/mysql/location). Seterusnya, saya menyahpasang pakej Perconaserver5.7, memasang semula pakej 5.1.71 lama yang asal, memulakan perkhidmatan mysql, dan ia mendorong Unknown/unsupportedtabletype:innodb dan tidak boleh bermula seperti biasa. 11050912:04:27InnoDB:Initializingbufferpool,saiz=384.0M11050912:04:27InnoDB:Lengkap

Perbandingan pemilihan enjin storan MySQL: Penilaian indeks prestasi InnoDB, MyISAM dan Memori Pengenalan: Dalam pangkalan data MySQL, pilihan enjin storan memainkan peranan penting dalam prestasi sistem dan integriti data. MySQL menyediakan pelbagai enjin storan, enjin yang paling biasa digunakan termasuk InnoDB, MyISAM dan Memory. Artikel ini akan menilai penunjuk prestasi ketiga-tiga enjin storan ini dan membandingkannya melalui contoh kod. 1. Enjin InnoDB InnoDB adalah Saya

1. Tahap pengasingan transaksi Mysql Empat tahap pengasingan ini, apabila terdapat konflik serentak transaksi, beberapa masalah bacaan kotor, bacaan tidak boleh berulang dan bacaan hantu mungkin berlaku, dan innoDB menyelesaikannya dalam mod tahap pengasingan berulang Masalah dengan bacaan hantu, 2. Apakah bacaan hantu bermaksud bahawa dalam transaksi yang sama, hasil yang diperoleh apabila menanya julat yang sama dua kali sebelum dan selepas adalah tidak konsisten seperti yang ditunjukkan dalam rajah, kami melaksanakan pertanyaan julat Pada masa ini, hanya terdapat satu data yang memenuhi syarat Dalam transaksi kedua, ia memasukkan baris data dan menyerahkannya Apabila pertanyaan transaksi pertama, hasil yang diperoleh adalah lebih daripada hasil pertanyaan pertama. Data, ambil perhatian bahawa pertanyaan pertama dan kedua bagi transaksi pertama adalah sama

Keupayaan carian teks penuh InnoDB sangat kuat, yang dapat meningkatkan kecekapan pertanyaan pangkalan data dan keupayaan untuk memproses sejumlah besar data teks. 1) InnoDB melaksanakan carian teks penuh melalui pengindeksan terbalik, menyokong pertanyaan carian asas dan maju. 2) Gunakan perlawanan dan terhadap kata kunci untuk mencari, menyokong mod boolean dan carian frasa. 3) Kaedah pengoptimuman termasuk menggunakan teknologi segmentasi perkataan, membina semula indeks dan menyesuaikan saiz cache untuk meningkatkan prestasi dan ketepatan.

MySQL ialah sistem pengurusan pangkalan data yang digunakan secara meluas, dan enjin storan yang berbeza mempunyai kesan yang berbeza terhadap prestasi pangkalan data. MyISAM dan InnoDB ialah dua enjin storan yang paling biasa digunakan dalam MySQL Ia mempunyai ciri yang berbeza dan penggunaan yang tidak betul boleh menjejaskan prestasi pangkalan data. Artikel ini akan memperkenalkan cara menggunakan kedua-dua enjin storan ini untuk mengoptimumkan prestasi MySQL. 1. Enjin storan MyISAM MyISAM ialah enjin storan yang paling biasa digunakan untuk MySQL Kelebihannya ialah kelajuan yang pantas dan ruang storan yang kecil. MyISA

Petua dan strategi untuk meningkatkan prestasi bacaan enjin storan MySQL: Analisis perbandingan MyISAM dan InnoDB Pengenalan: MySQL ialah salah satu sistem pengurusan pangkalan data hubungan sumber terbuka yang paling biasa digunakan, terutamanya digunakan untuk menyimpan dan mengurus sejumlah besar data berstruktur. Dalam aplikasi, prestasi baca pangkalan data selalunya sangat penting, kerana operasi baca adalah jenis operasi utama dalam kebanyakan aplikasi. Artikel ini akan memberi tumpuan kepada cara untuk meningkatkan prestasi bacaan enjin storan MySQL, memfokuskan pada analisis perbandingan MyISAM dan InnoDB, dua enjin storan yang biasa digunakan.
