在面試的時候,面試官很喜歡這麼問:
熟悉SQL優化嗎?
「最佳化策略」
1、對查詢進行最佳化,應盡量避免全表掃描,首先應考慮在WHERE 及ORDER BY涉及的列上建立索引。
2、應盡量避免在WHERE 子句中對欄位進行NULL 值判斷,建立表格時NULL是預設值,但大多時候應該使用NOT NULL,或是使用一個特殊的值,如0, -1 作為預設值。
3、應盡量避免在 WHERE 子句中使用 != 或 <> 運算子。 MySQL 只有對下列運算子才使用索引:<,<=,=,>,>=,BETWEEN,IN,以及某些時候的 LIKE。
4、應盡量避免在WHERE 子句中使用OR 來連接條件,否則將導致引擎放棄使用索引而進行全表掃描,可以使用UNION 合併查詢:
select id from t where num=10 union all select id from t where num=20。
5、 IN 和NOT IN 也要慎用,否則會導致全表掃描。對於連續的數值,能用BETWEEN 就不要用IN:
select id from t where num between 1 and 3。
6、下面的查詢也會導致全表掃描:
select id from t where name like‘%abc%’
或
select id from t where name like‘%abc’
#要提高效率,可以考慮全文檢索。而
select id from t where name like‘abc%’
才用到索引。
7、如果在 WHERE 子句中使用参数,也会导致全表扫描。
8、应尽量避免在 WHERE 子句中对字段进行表达式操作,应尽量避免在 WHERE 子句中对字段进行函数操作。
9、很多时候用 EXISTS 代替 IN 是一个好的选择:
select num from a where num in(select num from b)
用下面的语句替换:
select num from a where exists(select 1 from b where num=a.num)
10、索引固然可以提高相应的 SELECT 的效率,但同时也降低了 INSERT 及 UPDATE 的效。因为 INSERT 或 UPDATE 时有可能会重建索引,所以怎样建索引需要慎重考虑,视具体情况而定。一个表的索引数最好不要超过 6 个,若太多则应考虑一些不常使用到的列上建的索引是否有必要。
11、应尽可能的避免更新 clustered 索引数据列, 因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列,那么需要考虑是否应将该索引建为 clustered 索引。
12、尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。
13、尽可能的使用 varchar, nvarchar 代替 char, nchar。因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。
14、最好不要使用返回所有:select from t ,用具体的字段列表代替 “*”,不要返回用不到的任何字段。
15、尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。
16、使用表的别名(Alias):当在 SQL 语句中连接多个表时,请使用表的别名并把别名前缀于每个 Column 上。这样一来,就可以减少解析的时间并减少那些由 Column 歧义引起的语法错误。
17、使用“临时表”暂存中间结果 :
简化 SQL 语句的重要方法就是采用临时表暂存中间结果。但是临时表的好处远远不止这些,将临时结果暂存在临时表,后面的查询就在 tempdb 中了,这可以避免程序中多次扫描主表,也大大减少了程序执行中“共享锁”阻塞“更新锁”,减少了阻塞,提高了并发性能。
18、一些 SQL 查询语句应加上 nolock,读、写是会相互阻塞的,为了提高并发性能。对于一些查询,可以加上 nolock,这样读的时候可以允许写,但缺点是可能读到未提交的脏数据。
使用 nolock 有3条原则:
19、常见的简化规则如下:
不要有超过 5 个以上的表连接(JOIN),考虑使用临时表或表变量存放中间结果。少用子查询,视图嵌套不要过深,一般视图嵌套不要超过 2 个为宜。
20、将需要查询的结果预先计算好放在表中,查询的时候再Select。这在SQL7.0以前是最重要的手段,例如医院的住院费计算。
21、用 OR 的字句可以分解成多个查询,并且通过 UNION 连接多个查询。他们的速度只同是否使用索引有关,如果查询需要用到联合索引,用 UNION all 执行的效率更高。多个 OR 的字句没有用到索引,改写成 UNION 的形式再试图与索引匹配。一个关键的问题是否用到索引。
22、在IN后面值的列表中,将出现最频繁的值放在最前面,出现得最少的放在最后面,减少判断的次数。
23、尽量将数据的处理工作放在服务器上,减少网络的开销,如使用存储过程。
存储过程是编译好、优化过、并且被组织到一个执行规划里、且存储在数据库中的 SQL 语句,是控制流语言的集合,速度当然快。反复执行的动态 SQL,可以使用临时存储过程,该过程(临时表)被放在 Tempdb 中。
24、当服务器的内存够多时,配制线程数量 = 最大连接数+5,这样能发挥最大的效率;否则使用配制线程数量< 最大连接数,启用 SQL SERVER 的线程池来解决,如果还是数量 = 最大连接数+5,严重的损害服务器的性能。
25、查询的关联同写的顺序 :
select a.personMemberID, * from chineseresume a,personmember b where personMemberID = b.referenceid and a.personMemberID = 'JCNPRH39681' (A = B, B = '号码') select a.personMemberID, * from chineseresume a,personmember b where a.personMemberID = b.referenceid and a.personMemberID = 'JCNPRH39681' and b.referenceid = 'JCNPRH39681' (A = B, B = '号码', A = '号码') select a.personMemberID, * from chineseresume a,personmember b where b.referenceid = 'JCNPRH39681' and a.personMemberID = 'JCNPRH39681' (B = '号码', A = '号码')
26、尽量使用 EXISTS 代替 select count(1) 来判断是否存在记录。count 函数只有在统计表中所有行数时使用,而且 count(1) 比 count(*) 更有效率。
27、尽量使用 “>=”,不要使用 “>”。
28、索引的使用规范:
索引的创建要与应用结合考虑,建议大的 OLTP 表不要超过 6 个索引;尽可能的使用索引字段作为查询条件,尤其是聚簇索引,必要时可以通过 index index_name 来强制指定索引;避免对大表查询时进行 table scan,必要时考虑新建索引;在使用索引字段作为条件时,如果该索引是联合索引,那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引,否则该索引将不会被使用;要注意索引的维护,周期性重建索引,重新编译存储过程。
29、下列 SQL 条件语句中的列都建有恰当的索引,但执行速度却非常慢:
SELECT * FROM record WHERE substrINg(card_no, 1, 4) = '5378' --13秒 SELECT * FROM record WHERE amount/30 < 1000 --11秒 SELECT * FROM record WHERE convert(char(10), date, 112) = '19991201' --10秒
分析
:
WHERE 子句中对列的任何操作结果都是在 SQL 运行时逐列计算得到的,因此它不得不进行表搜索,而没有使用该列上面的索引。
如果这些结果在查询编译时就能得到,那么就可以被 SQL 优化器优化,使用索引,避免表搜索,因此将 SQL 重写成下面这样:
SELECT * FROM record WHERE card_no like '5378%' -- < 1秒 SELECT * FROM record WHERE amount < 1000*30 -- < 1秒 SELECT * FROM record WHERE date = '1999/12/01' -- < 1秒
30、当有一批处理的插入或更新时,用批量插入或批量更新,绝不会一条条记录的去更新。
31、在所有的存储过程中,能够用 SQL 语句的,我绝不会用循环去实现。
例如:列出上个月的每一天,我会用 connect by 去递归查询一下,绝不会去用循环从上个月第一天到最后一天。
32、选择最有效率的表名顺序(只在基于规则的优化器中有效):
Oracle 的解析器按照从右到左的顺序处理 FROM 子句中的表名,FROM 子句中写在最后的表(基础表 driving table)将被最先处理,在 FROM 子句中包含多个表的情况下,你必须选择记录条数最少的表作为基础表。
如果有 3 个以上的表连接查询,那就需要选择交叉表(intersection table)作为基础表,交叉表是指那个被其他表所引用的表。
33、提高 GROUP BY 语句的效率,可以通过将不需要的记录在 GROUP BY 之前过滤掉。下面两个查询返回相同结果,但第二个明显就快了许多。
低效
:
SELECT JOB, AVG(SAL) FROM EMP GROUP BY JOB HAVING JOB = 'PRESIDENT' OR JOB = 'MANAGER'
高效
:
SELECT JOB, AVG(SAL) FROM EMP WHERE JOB = 'PRESIDENT' OR JOB = 'MANAGER' GROUP BY JOB
34、SQL 语句用大写,因为 Oracle 总是先解析 SQL 语句,把小写的字母转换成大写的再执行。
35、别名的使用,别名是大型数据库的应用技巧,就是表名、列名在查询中以一个字母为别名,查询速度要比建连接表快 1.5 倍。
36、避免死锁,在你的存储过程和触发器中访问同一个表时总是以相同的顺序;事务应经可能地缩短,在一个事务中应尽可能减少涉及到的数据量;永远不要在事务中等待用户输入。
37、避免使用临时表,除非却有需要,否则应尽量避免使用临时表,相反,可以使用表变量代替。大多数时候(99%),表变量驻扎在内存中,因此速度比临时表更快,临时表驻扎在 TempDb 数据库中,因此临时表上的操作需要跨数据库通信,速度自然慢。
38、最好不要使用触发器:
触发一个触发器,执行一个触发器事件本身就是一个耗费资源的过程;如果能够使用约束实现的,尽量不要使用触发器;不要为不同的触发事件(Insert、Update 和 Delete)使用相同的触发器;不要在触发器中使用事务型代码。
39、索引创建规则:
表的主鍵、外鍵必須有索引;資料量超過300 的表應該有索引;經常與其他表進行連接的表,在連接字段上應該建立索引;經常出現在WHERE 子句中的字段,特別是大表的字段,應該建立索引;索引應該建在選擇性高的字段上;索引應該建在小字段上,對於大的文本字段甚至超長字段,不要建索引;複合索引的建立需要進行仔細分析,盡量考慮用單一字段索引代替;正確選擇複合索引中的主列字段,一般是選擇性較好的字段;複合索引的幾個字段是否經常同時以AND 方式出現在WHERE 子句中?單字段查詢是否極少甚至沒有?如果是,則可以建立複合索引;否則考慮單一欄位索引;如果複合索引中包含的欄位經常單獨出現在WHERE 子句中,則分解為多個單一欄位索引;如果複合索引所包含的欄位超過3 個,那麼仔細考慮其必要性,考慮減少複合的字段;如果既有單字段索引,又有這幾個字段上的複合索引,一般可以刪除複合索引;頻繁進行數據操作的表,不要建立太多的索引;刪除無用的索引,避免對執行計劃造成負面影響;表上建立的每個索引都會增加儲存開銷,索引對於插入、刪除、更新操作也會增加處理上的開銷。另外,過多的複合索引,在有單一欄位索引的情況下,一般都是沒有存在價值的;相反,還會降低資料增加刪除時的效能,特別是對頻繁更新的表來說,負面影響更大。盡量不要對資料庫中某個含有大量重複的值的欄位建立索引。
40、MySQL 查詢最佳化總結:
使用慢查詢日誌去發現慢查詢,使用執行計劃去判斷查詢是否正常運行,總是去測試你的查詢看看他們是否運行在最佳狀態下。
久而久之效能總是會變化,避免在整個表上使用count(*),它可能鎖住整張表,使查詢保持一致以便後續相似的查詢可以使用查詢緩存,在適當的情形下使用GROUP BY 而不是DISTINCT,在WHERE、GROUP BY 和ORDER BY 子句中使用有索引的列,保持索引簡單,不在多個索引中包含同一個列。
有時候MySQL 會使用錯誤的索引,對於這種情況使用USE INDEX,檢查使用SQL_MODE=STRICT 的問題,對於記錄數小於5的索引字段,在UNION 的時候使用LIMIT不是用OR 。
為了避免在更新前SELECT,使用INSERT ON DUPLICATE KEY 或INSERT IGNORE;不要用UPDATE 去實現,不要使用MAX;使用索引字段和ORDER BY子句LIMIT M,N 實際上可以減緩查詢在在某些情況下,有節制地使用,在WHERE 子句中使用UNION 代替子查詢,在重新啟動的MySQL,記得來溫暖你的資料庫,以確保資料在記憶體和查詢速度快,考慮持久連接,而不是多個連接,以減少開銷。
基準查詢,包括使用伺服器上的負載,有時一個簡單的查詢可以影響其他查詢,當負載增加在伺服器上,使用SHOW PROCESSLIST 查看慢的和有問題的查詢,在開發環境中產生的鏡像資料中測試的所有可疑的查詢。
41、MySQL 備份過程:
從二級複製伺服器上進行備份;在進行備份期間停止複製,以避免在資料依賴和外鍵約束上出現不一致;徹底停止MySQL,從資料庫檔案進行備份;如果使用MySQL dump 進行備份,請同時備份二進位日誌檔案– 確保複製沒有中斷;不要信任LVM 快照,這很可能產生資料不一致,將來會給你帶來麻煩;為了更容易進行單表恢復,以表為單位導出資料-如果資料是與其他表隔離的。使用 mysqldump 時請使用 –opt;在備份之前檢查和最佳化表;為了更快的進行匯入,在匯入時暫時停用外鍵約束。 ;為了更快的進行導入,在導入時臨時禁用唯一性檢測;在每一次備份後計算資料庫,表以及索引的尺寸,以便更夠監控資料尺寸的增長;透過自動調度腳本監控複製實例的錯誤和延遲;定期執行備份。
42、查詢緩衝不會自動處理空格,因此,在寫SQL 語句時,應盡量減少空格的使用,尤其是在SQL 首和尾的空格(因為查詢緩衝並不會自動截取首尾空格)。
43、member 用 mid 做標準進行分錶方便查詢麼?一般的業務需求中基本上都是以 username 為查詢依據,正常應是 username 做 hash 取模來分錶。
而分錶的話 MySQL 的 partition 功能就是乾這個的,對程式碼是透明的;在程式碼層面去實現貌似是不合理的。
44、我們應該為資料庫裡的每個表都設定一個 ID 做為其主鍵,而且最好的是一個 INT 型的(建議使用 UNSIGNED),並設定上自動增加的 AUTO_INCREMENT 標誌。
45、在所有的預存程序和觸發器的開始處設定 SET NOCOUNT ON,在結束時設定 SET NOCOUNT OFF。無需在執行預存程序和觸發器的每個語句後向客戶端發送 DONE_IN_PROC 訊息。
46、MySQL 查詢可以啟用高速查詢快取。這是提高資料庫效能的有效MySQL優化方法之一。當同一個查詢被執行多次時,從快取中提取資料和直接從資料庫中返回資料快很多。
47、EXPLAIN SELECT 查詢用來追蹤檢視效果:
使用 EXPLAIN 關鍵字可以讓你知道 MySQL 是如何處理你的 SQL 語句的。這可以幫你分析你的查詢語句或是表格結構的效能瓶頸。 EXPLAIN 的查詢結果也會告訴你你的索引主鍵被如何利用的,你的資料表是如何被搜尋和排序的。
48、當只要一行資料時使用LIMIT 1 :
當你查詢表格的某些時候,你已經知道結果只會有一個結果,但因為你可能需要去fetch遊標,或者你也許會去檢查回傳的記錄數。
在這種情況下,加上 LIMIT 1 可以增加效能。這樣一來,MySQL 資料庫引擎會在找到一筆資料後停止搜索,而不是繼續往後查少下一筆符合記錄的資料。
49、選擇表合適儲存引擎:
myisam
:應用程式時以讀取和插入操作為主,只有少量的更新和刪除,並且對事務的完整性,並發性要求不是很高的。 InnoDB
:交易處理,以及在並發條件下要求資料的一致性。除了插入和查詢外,包括許多的更新和刪除。 (InnoDB 有效降低刪除和更新導致的鎖定)。對於支援事務的 InnoDB類別 型的表來說,影響速度的主要原因是 AUTOCOMMIT 預設設定是開啟的,而且程式沒有明確調用 BEGIN 開始事務,導致每插入一條都自動提交,嚴重影響了速度。可以在執行 SQL 之前呼叫 begin,多條 SQL 形成一個事物(即使 autocommit 開啟也可以),將大大提高效能。
50、優化表的資料類型,選擇合適的資料類型:
原則
:更小通常更好,簡單就好,所有欄位都得有默認值,盡量避免NULL。
例如:資料庫表設計時候更小的佔磁碟空間盡可能使用更小的整數型別。 (mediumint 就比 int 更適合)
例如時間欄位:datetime 和 timestamp。 datetime 佔用8個位元組,timestamp 佔用4個字節,只用了一半。而 timestamp 表示的範圍是 1970—2037 適合做更新時間。
MySQL可以很好的支援大數據量的訪問,但是一般說來,資料庫中的表越小,在它上面執行的查詢就會越快。
因此,在建立表格的時候,為了獲得更好的效能,我們可以將表格中欄位的寬度設得盡可能小。
例如:在定義郵遞區號這個欄位時,如果將其設為 CHAR(255),顯然為資料庫增加了不必要的空間。甚至使用VARCHAR 這種型態也是多餘的,因為 CHAR(6) 就可以很好的完成任務了。
同樣的,如果可以的話,我們應該使用 MEDIUMINT 而不是 BIGIN 來定義整數字段,應該盡量把字段設置為 NOT NULL,這樣在將來執行查詢的時候,數據庫不用去比較 NULL 值。
對於某些文字字段,例如“省份”或“性別”,我們可以將它們定義為 ENUM 類型。因為在 MySQL 中,ENUM 類型被當作數值資料來處理,而數值型資料被處理的速度比文字類型快得多。這樣,我們又可以提高資料庫的效能。
51、字串資料類型:char, varchar, text 選擇區別。
52、任何對列的操作都會導致表掃描,它包括資料庫函數、計算表達式等等,查詢時要盡可能將操作移至等號右邊。
「總結」
本文一共講述了52條SQL優化策略,如果能說出10種以上,證明這次面試還是很戲劇化的,如果能說出20種,面試官基本上不再等你繼續說了,你已經很牛X了,此時在面試官的印象分嘩啦啦的往上加。
以上是面試官:熟悉SQL優化嗎?我只知道20種,其實遠不止...的詳細內容。更多資訊請關注PHP中文網其他相關文章!