Mysql如何處理大數據表?以下這篇文章跟大家介紹Mysql大數據表處理方案,希望對大家有幫助。
當我們業務資料庫表中的資料越來越多,如果你也和我遇到了以下類似場景,那讓我們一起來解決這個問題
我們可以從表容量/磁碟空間/實例容量三方面評估資料體量,接下來讓我們分別展開來看看
select table_schema as '数据库', table_name as '表名', table_rows as '记录数', truncate(data_length/1024/1024, 2) as '数据容量(MB)', truncate(index_length/1024/1024, 2) as '索引容量(MB)' from information_schema.tables order by data_length desc, index_length desc;
select table_schema as '数据库', table_name as '表名', table_rows as '记录数', truncate(data_length/1024/1024, 2) as '数据容量(MB)', truncate(index_length/1024/1024, 2) as '索引容量(MB)' from information_schema.tables where table_schema='mysql' order by data_length desc, index_length desc;
一個表的資料量達到好幾千萬或上億時,加索引的效果沒那麼明顯啦。效能之所以會變差,是因為維護索引的
B樹結構層級變得更高了,查詢一條資料時,需要經歷的磁碟IO變多,因此查詢效能變慢。
InnoDB儲存引擎最小儲存單元是頁,一頁大小就是
16k。 B 樹葉子存的是數據,內部節點存的是鍵值 指標。索引組織表透過非葉子節點的二分查找法以及指標確定資料在哪個頁中,進而再去資料頁中找到所需的資料;
假設B 樹的高度為
2的話,即有一個根結點和若干個葉子結點。這棵B 樹的存放總記錄數為=根結點指標數*單一葉子節點記錄行數。
條這樣的資料記錄。同理一棵高度為3的B 樹,能存放1170 *1170 *16 =21902400
,也就是說,可以存放兩千萬左右的記錄。 B 樹高度一般為1-3層,已滿足千萬等級的資料儲存。 如果B 樹想儲存更多的數據,那樹結構層級就會更高,查詢一條數據時,需要經歷的磁碟IO變多,因此查詢效能變慢。
这里提供了三种解决方案,包括数据表分区,分库分表,冷热数据归档 了解完这些方案之后大家可以选取适合自己业务的方案
为什么要分区:表分区可以在区间内查询对应的数据,降低查询范围 并且索引分区 也可以进一步提高命中率,提升查询效率
分区是指将一个表的数据按照条件分布到不同的文件上面,未分区前都是存放在一个文件上面的,但是它还是指向的同一张表,只是把数据分散到了不同文件而已。
我们首先看一下分区有什么优缺点:
表分区有什么好处?
与单个磁盘或文件系统分区相比,可以存储更多的数据。
对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据。相反地,在某些情况下,添加新数据的过程又可以通过为那些新数据专门增加一个新的分区,来很方便地实现。
一些查询可以得到极大的优化,这主要是借助于满足一个给定WHERE语句的数据可以只保存在一个或多个分区内,这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改,所以在第一次配置分区方案时还不曾这么做时,可以重新组织数据,来提高那些常用查询的效率。
涉及到例如SUM()和COUNT()这样聚合函数的查询,可以很容易地进行并行处理。这种查询的一个简单例子如 “SELECT salesperson_id, COUNT (orders) as order_total FROM sales GROUP BY salesperson_id;”。通过“并行”,这意味着该查询可以在每个分区上同时进行,最终结果只需通过总计所有分区得到的结果。
通过跨多个磁盘来分散数据查询,来获得更大的查询吞吐量。
表分区的限制因素
一个表最多只能有1024个分区。
MySQL5.1中,分区表达式必须是整数,或者返回整数的表达式。在MySQL5.5中提供了非整数表达式分区的支持。
如果分区字段中有主键或者唯一索引的列,那么多有主键列和唯一索引列都必须包含进来。即:分区字段要么不包含主键或者索引列,要么包含全部主键和索引列。
分区表中无法使用外键约束。
MySQL的分区适用于一个表的所有数据和索引,不能只对表数据分区而不对索引分区,也不能只对索引分区而不对表分区,也不能只对表的一部分数据分区。
在进行分区之前可以用如下方法 看下数据库表是否支持分区哈
mysql> show variables like '%partition%'; +-------------------+-------+ | Variable_name | Value | +-------------------+-------+ | have_partitioning | YES | +-------------------+-------+ 1 row in set (0.00 sec)
为什么要分表:分表后,显而易见,单表数据量降低,树的高度变低,查询经历的磁盘io变少,则可以提高效率
mysql 分表分为两种 水平分表和垂直分表
分库分表就是为了解决由于数据量过大而导致数据库性能降低的问题,将原来独立的数据库拆分成若干数据库组成 ,将数据大表拆分成若干数据表组成,使得单一数据库、单一数据表的数据量变小,从而达到提升数据库性能的目的。
定义:数据表行的拆分,通俗点就是把数据按照某些规则拆分成多张表或者多个库来存放。分为库内分表和分库。 比如一个表有4000万数据,查询很慢,可以分到四个表,每个表有1000万数据
定义:列的拆分,根据表之间的相关性进行拆分。常见的就是一个表把不常用的字段和常用的字段就行拆分,然后利用主键关联。或者一个数据库里面有订单表和用户表,数据量都很大,进行垂直拆分,用户库存用户表的数据,订单库存订单表的数据
缺点:垂直分隔的缺点比较明显,数据不在一张表中,会增加join 或 union之类的操作
知道了两个知识后,我们来看一下分库分表的方案
拆分前,先預估一下資料量。例如用戶表有4000w數據,現在要把這些數據分到4個表user1 user2 uesr3 user4。 例如id = 17,17對4取模為1,加上 ,所以這資料存到user2表。
注意:進行水平拆分後的表要去掉auto_increment自增長。這時候的id可以用一個id 自增長臨時表來獲得,或是用 redis incr的方法。
優點: 數據均勻的分到各表中,出現熱點問題的機率很低。
缺點:以後的資料擴容遷移比較困難難,當資料量變大之後,以前分到4個表現在要分到8個表,取模的值就變了,需要重新進行資料遷移。
以範圍進行分割數據,就是在某個範圍內的訂單,存放到某個表中。例如id=12存放到user1表,id=1300萬的存放到user2 表。
優點:有利於將來資料的擴容
#缺點:如果熱點資料都存在一個表中,則壓力都在一個表中,其他表沒有壓力。
我們看到以上兩種方案 都有缺點 但是卻又是互補的,那麼我們將這兩個方案結合會怎麼樣呢?
如下圖我們可以看到group 群組存放id 為0~4000萬的數據,然後有三個資料庫DB0 DB1 DB2,DB0裡面有四個資料庫,DB1 和DB2 有三個資料庫
假如id為15000 然後對10取模(為啥對10 取模因為有10個表),取0 然後落在DB_0,然後在根據range 範圍,落在Table_0 裡面。
總結:採用hash取模和range方案結合既可以避免熱點資料的問題,也有利於將來對資料的擴容
我們已經了解了mysql分區和分錶的知識那我們看一下這兩個技術有何不同以及適用場景
1、分錶的方法有很多,用merge來分錶,是最簡單的一種方式。這種方式根分區難易度差不多,而且對程式碼來說可以做到透明的。如果是用其他分錶方式就比分區麻煩了。 2.分區實作是比較簡單的,建立分區表,根建平常的表沒什麼差別,並且對開代碼端來說是透明的
額外的資料管理負擔,最顯而易見的就是資料的定位問題和資料的增刪改查的重複執行問題,這些都可以透過應用程式解決,但必然會引起額外的邏輯運算,例如,對於一個記錄使用者成績的使用者資料表userTable,業務要求查出成績最好的100位,在進行分錶之前,只需一個order by語句就可以搞定,但是在進行分錶之後,將需要n個order by語句,分別查出每一個分錶的前100名用戶數據,然後再對這些數據進行合併計算,才能得出結果。
為什麼要冷熱歸檔:其實原因和方案二類似,都是降低單表資料量,樹的高度變低,查詢經歷的磁碟io變少,則可以提高效率 如果大家的業務數據,有明顯的冷熱區分,例如:只需要顯示近一週或一個月的數據。那麼這種情況這一週喝一個月的數據我們稱為熱數據,其餘數據為冷數據。那我們可以將冷資料歸檔在其他的函式庫表中,以提高我們熱資料的操作效率。
建立歸檔表 所建立的歸檔表原則上要與原始表保持一致
歸檔表資料的初始化
業務增量資料處理流程
#資料的取得過程
#試用場景 | 優點 | 缺點 | |
---|---|---|---|
#資料表分割區 | 1.資料量較大2 .查詢場景只在某個區3.沒有聯合查詢的場景 | 區分錶是在物理上對資料表所對應的文件進行拆分,對應的表名是不變的,所以不會影響到先前業務邏輯的sql | 分錶後的查詢等業務會建立對應的對象,也會造成一定的開銷分區資料若要聚合的話耗費時間也較長;使用範圍不適合數據量千萬級以上的 |
資料表分錶 | 資料量較大,無法區分明顯冷熱區 且資料可以完整依照區間分割 | 適用於對冷熱分區的界限不是很明顯的數據,對後續類似的數據可以採用該方式,將大表拆分成小表提高查詢插入等效率 | 若大數據表逐漸增加那麼對應的資料庫表越來越多每個表都需要分錶;區間的劃分較為固定若後續單表的資料量大起來也會對效能造成影響;實現複雜度相對方案三比較複雜 需要測試整個實作過程在編碼層處理對原有業務有影響; |
冷熱歸檔分庫 | 資料量較大;資料冷熱分區明顯;冷資料使用頻率極低; | 資料遷移的流程對業務的影響較小開發量也較少減少成本 | #需要確認分錶規則 |
大家可以根據自己的業務場景,去選擇合適自己業務的方案,我這邊就給大家提供一下思路~
那麼到了這裡,我要講的內容就差不多結束了,如果有什麼不對的,或是有什麼疑惑,歡迎大家來指點點點!
【相關推薦:mysql影片教學】
#以上是Mysql如何處理大數據表?處理方案分享的詳細內容。更多資訊請關注PHP中文網其他相關文章!