关于mongodb创建索引的一些经验总结
想来接触mongodb已经快一年了,对于它的索引知识也积攒了不少经验,趁着这个月黑风高的夜晚,就把mongodb的索引总结一番吧。 一,索引介绍 mongodb具有两类索引,分别为单键索引和复合索引。 1.单键索引是最简单的一种索引,创建单键索引的开销要比复合索引
想来接触mongodb已经快一年了,对于它的索引知识也积攒了不少经验,趁着这个月黑风高的夜晚,就把mongodb的索引总结一番吧。
一,索引介绍
mongodb具有两类索引,分别为单键索引和复合索引。
1.单键索引是最简单的一种索引,创建单键索引的开销要比复合索引小很多。单键索引主要用于针对单值查询的条件。
2.复合索引是将文档中的几个键联合起来创建的一种索引,创建这种索引需要更多的空间与性能开销。分别体现在:
1).在给大量数据创建复合索引时,会阻塞数据库的查询,更不用说修改和插入操作了;
2).插入一条数据时,要花费更多的时间来给复合索引加数据;
3).创建的复合索引所站得空间大小根据数据的类型以及键的数量而有所不同。比如,如果你用五个NumberInt的键创建的复合索引的空间大小,并不会比两个NumberInt和一个String类型创建的复合索引占用更多的空间。索引在设计数据类型时,尽量将数据类型设置为NumberInt类型,以及尽量少使用string类型的数据做索引;
二,创建索引
创建索引的语句很简单。
1.单键索引的创建:db.test.ensureIndex({name:1},{name:'index_name'})
2.复合索引的创建:db.test.ensureIndex({name:1,age:1,sex:1},{name:'index_nas'})
三,索引优化
索引的优化是一个重头戏,需要详细的来解释。我得测试数据插入了100万条。字段分别为name,sex,type,time,id
1.我们来看一个简单的查询:db.test.find({name:'name_1'}) 相信大家对这个查询已经很熟悉了,然后我们来看看这个语句的索引执行计划:
{ "cursor" : "BasicCursor", 查询语句所用到的索引,而BasicCursor代表没有索引 "isMultiKey" : false, 是否为复合索引 "n" : 1, 查询到的结果数 "nscannedObjects" : 1000000, 扫描的文档数量 "nscanned" : 1000000, 扫面的索引数量 "nscannedObjectsAllPlans" : 1000000, //影响的所有的被扫描文档的总数量 "nscannedAllPlans" : 1000000, //所有被扫描的索引的总数量 "scanAndOrder" : false, 是否排序 "indexOnly" : false, "nYields" : 2, "nChunkSkips" : 0, "millis" : 342, 花费的时间 "indexBounds" : { }, "server" : "node1:27017" }
从这个执行计划中可以看出,该条查询语句查询一条数据需要扫描整个表,这肯定扯淡了嘛,那这时候就该给这个字段创建索引了,创建一个单键索引
db.test.ensureIndex({name:1},{name:'index_name'})
创建完索引之后,再来查看看这条查询语句的执行计划:
{ "cursor" : "BtreeCursor index_name", "isMultiKey" : false, "n" : 1, "nscannedObjects" : 1, "nscanned" : 1, "nscannedObjectsAllPlans" : 1, "nscannedAllPlans" : 1, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 0, "nChunkSkips" : 0, "millis" : 0, "indexBounds" : { "name" : [ [ "name_1", "name_1" ] ] }, "server" : "node1:27017" }
简直是逆天啊,nscanned和nscannedObjects居然从100万下降到1条,也就是查询数据时,只扫描了一条就已经找到,而且花费的时间是0秒,没有创建索引时,居然是342毫秒,绝对索引威武啊。
2.这时候我想通过type和sex来组合查询某一条件的数据: db.test.find({type:1,sex:0}) 看看这句的执行计划:
{ "cursor" : "BasicCursor", "isMultiKey" : false, "n" : 55555, "nscannedObjects" : 1000000, "nscanned" : 1000000, "nscannedObjectsAllPlans" : 1000000, "nscannedAllPlans" : 1000000, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 0, "nChunkSkips" : 0, "millis" : 529, "indexBounds" : { }, "server" : "node1:27017" }
从这个计划中可以看出,为了查找几万条数据,它也扫描了整个表,很显然,该创建索引了:
db.test.ensureIndex({type:1,sex:1},{name:'index_ts'})
创建完索引之后,再来执行查询语句,看看执行计划:
db.test.find({type:1,sex:0}).explain() { "cursor" : "BtreeCursor index_ts", "isMultiKey" : false, "n" : 55555, "nscannedObjects" : 55555, "nscanned" : 55555, "nscannedObjectsAllPlans" : 55555, "nscannedAllPlans" : 55555, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 0, "nChunkSkips" : 0, "millis" : 112, "indexBounds" : { "type" : [ [ 1, 1 ] ], "sex" : [ [ 0, 0 ] ] }, "server" : "node1:27017" }
很显然,绝对是一个最佳索引,因为n=nscannedObjects=nscanned了,而且查询时间从529毫秒下降到112毫秒了,这也是一个质的飞跃,可以明显的看到,它使用了刚刚创建的index_ts索引。
现在我又有一个需求了,我想通过时间再来排序,好的,我们执行查询语句: db.test.find({type:1,sex:0}).sort({time:-1}) 我们来看看这个查询语句的执行计划:
{ "cursor" : "BtreeCursor index_ts", "isMultiKey" : false, "n" : 55555, "nscannedObjects" : 1000000, "nscanned" : 1000000, "nscannedObjectsAllPlans" : 1000000, "nscannedAllPlans" : 1000000, "scanAndOrder" : true, "indexOnly" : false, "nYields" : 1, "nChunkSkips" : 0, "millis" : 695, "indexBounds" : { "type" : [ [ 1, 1 ] ], "sex" : [ [ 0, 0 ] ] }, "server" : "node1:27017" }
看到没,这个查询语句跟上一个创建索引之后的查询出来的结果相差还是很大的,scanAndOrder和millis,时间花费了将近700毫秒,而且在查询完毕之后还要排序,这也太不近人情了,就加了一个排序操作,怎么会让它从白天鹅变成丑小鸭了呢?啊,关键参数就是scanAndOrder,意思就是在内存中把结果排序了嘛,那好啊,既然你如此薄情,那我就建个复合索引来对抗: db.test.ensureIndex({type:1,sex:1,time:-1},{name:'index_tst'})
{ "cursor" : "BtreeCursor index_tst", "isMultiKey" : false, "n" : 55555, "nscannedObjects" : 55555, "nscanned" : 55555, "nscannedObjectsAllPlans" : 55555, "nscannedAllPlans" : 55555, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 0, "nChunkSkips" : 0, "millis" : 126, "indexBounds" : { "type" : [ [ 1, 1 ] ], "sex" : [ [ 0, 0 ] ], "time" : [ [ { "$maxElement" : 1 }, { "$minElement" : 1 } ] ] }, "server" : "node1:27017" }
看到了吗?各种参数又回到最佳状态了。这时候可能有人会问了,为什么要把time放到索引的最后而不是其它位置呢?其实这在创建索引时是有要求的,即:
-
将等值索引放在最前面
-
尽量将排序字段放在范围字段的前面
-
$nin和$ne跟索引没有关系
接下来我们再给查询语句加条件: db.test.find({type:1,sex:0,id:{$gt:1,$lt:500000}}) 执行计划如下:
{ "cursor" : "BasicCursor", "isMultiKey" : false, "n" : 55555, "nscannedObjects" : 1000000, "nscanned" : 1000000, "nscannedObjectsAllPlans" : 1000000, "nscannedAllPlans" : 1000000, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 2, "nChunkSkips" : 0, "millis" : 553, "indexBounds" : { }, "server" : "node1:27017" }
登入後複製可以看到,只返回两万多条数据,但是却扫描了整个表,这肯定是很蛋疼的事情嘛,索引走起:
db.test.ensureIndex({type:1,sex:1,id:1},{name:'index_tis'})
{ "cursor" : "BtreeCursor index_tis", "isMultiKey" : false, "n" : 55555, "nscannedObjects" : 55555, "nscanned" : 55555, "nscannedObjectsAllPlans" : 55555, "nscannedAllPlans" : 55555, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 1, "nChunkSkips" : 0, "millis" : 137, "indexBounds" : { "type" : [ [ 1, 1 ] ], "sex" : [ [ 0, 0 ] ], "id" : [ [ 1, 1000000 ] ] }, "server" : "node1:27017" }
登入後複製很显然,这是个非常不错的组合索引,那为何不把id放在其它地方,偏偏放在最后面呢?因为在mongodb中,索引是从左到右执行的,因此显然要从左到右一次过滤最大数量的数据显然type和sex的组合过滤数据量要比id高更多,因为id的忙查率要远高于这两个组合。
接着再把按time排序加上,查询:db.test.find({type:1,sex:1,id:{$gt:0,$lt:1000000}}).sort({time:-1}).explain()
{ "cursor" : "BasicCursor", "isMultiKey" : false, "n" : 55556, "nscannedObjects" : 1000000, "nscanned" : 1000000, "nscannedObjectsAllPlans" : 1000000, "nscannedAllPlans" : 1000000, "scanAndOrder" : true, "indexOnly" : false, "nYields" : 1, "nChunkSkips" : 0, "millis" : 725, "indexBounds" : { }, "server" : "node1:27017" }
登入後複製可以看到,这个查询语句也是极其慢的,而且还要再内存中排序,所以肯定要创建索引了:
db.test.ensureIndex({type:1,sex:1,id:1,time:-1},{name:'index_tist'}) 我们先这样创建索引,看看执行计划:
{ "cursor" : "BtreeCursor index_tist", "isMultiKey" : false, "n" : 55556, "nscannedObjects" : 55556, "nscanned" : 55556, "nscannedObjectsAllPlans" : 55657, "nscannedAllPlans" : 55657, "scanAndOrder" : true, "indexOnly" : false, "nYields" : 0, "nChunkSkips" : 0, "millis" : 404, "indexBounds" : { "type" : [ [ 1, 1 ] ], "sex" : [ [ 1, 1 ] ], "id" : [ [ 0, 1000000 ] ], "time" : [ [ { "$maxElement" : 1 }, { "$minElement" : 1 } ] ] }, "server" : "node1:27017" }
登入後複製看到了没有,虽然查询时间缩短了,但是这个查询结果还是会排序结果,好,我们再把索引改改:
db.test.ensureIndex({type:1,sex:1,time:-1,id:1},{name:'index_tist'})
{ "cursor" : "BtreeCursor index_tist", "isMultiKey" : false, "n" : 55556, "nscannedObjects" : 55556, "nscanned" : 55556, "nscannedObjectsAllPlans" : 55657, "nscannedAllPlans" : 55657, "scanAndOrder" : false, "indexOnly" : false, "nYields" : 0, "nChunkSkips" : 0, "millis" : 168, "indexBounds" : { "type" : [ [ 1, 1 ] ], "sex" : [ [ 1, 1 ] ], "time" : [ [ { "$maxElement" : 1 }, { "$minElement" : 1 } ] ], "id" : [ [ 0, 1000000 ] ] }, "server" : "node1:27017" }
登入後複製再来看看,快到什么程度了,这个查询的速度和参数条件已经比上一个索引的快了很多,那为什么会出现这种情况呢?为什么time在id的前后会有不同的表现?这是因为通过type和sex字段过滤完之后,已经在内存中有了数据,而这些数据下一步需要怎么办?是先通过id来筛选,还是按照排序筛选呢?这里有一个知识点,在把id放在time前面时,程序首先会取复合id值,然后再把复合的数据排序,但是如果id放在排序的后面,那么程序将直接通过顺序扫描索引树的方式取出复合id范围的数据。
四,总结
1.mongodb创建索引难点在于排序和范围查询的字段位置选择
2.mongodb的复合索引的索引截取查询是顺序的,即如果(a:1,b:1,c:1},则可以是查询{a:1},{a:1,b:1},{a:1,b:1,c:1}中得任何一种都会使用该索引,其它查询情况将不会用到该索引;
3.尽量创建更少的索引以提高数据库性能
4.以上的索引优化只是生产环境的一部分,具体情况可能还要看自己的业务来定

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在開發一個電商網站時,我遇到了一個棘手的問題:如何為用戶提供個性化的商品推薦。最初,我嘗試了一些簡單的推薦算法,但效果並不理想,用戶的滿意度也因此受到影響。為了提升推薦系統的精度和效率,我決定採用更專業的解決方案。最終,我通過Composer安裝了andres-montanez/recommendations-bundle,這不僅解決了我的問題,還大大提升了推薦系統的性能。可以通過一下地址學習composer:學習地址

直接通過 Navicat 查看 MongoDB 密碼是不可能的,因為它以哈希值形式存儲。取回丟失密碼的方法:1. 重置密碼;2. 檢查配置文件(可能包含哈希值);3. 檢查代碼(可能硬編碼密碼)。

CentOS系統上GitLab數據庫部署指南選擇合適的數據庫是成功部署GitLab的關鍵步驟。 GitLab兼容多種數據庫,包括MySQL、PostgreSQL和MongoDB。本文將詳細介紹如何選擇並配置這些數據庫。數據庫選擇建議MySQL:一款廣泛應用的關係型數據庫管理系統(RDBMS),性能穩定,適用於大多數GitLab部署場景。 PostgreSQL:功能強大的開源RDBMS,支持複雜查詢和高級特性,適合處理大型數據集。 MongoDB:流行的NoSQL數據庫,擅長處理海

CentOS系統下MongoDB高效備份策略詳解本文將詳細介紹在CentOS系統上實施MongoDB備份的多種策略,以確保數據安全和業務連續性。我們將涵蓋手動備份、定時備份、自動化腳本備份以及Docker容器環境下的備份方法,並提供備份文件管理的最佳實踐。手動備份:利用mongodump命令進行手動全量備份,例如:mongodump-hlocalhost:27017-u用戶名-p密碼-d數據庫名稱-o/備份目錄此命令會將指定數據庫的數據及元數據導出到指定的備份目錄。

MongoDB與關係型數據庫:深度對比本文將深入探討NoSQL數據庫MongoDB與傳統關係型數據庫(如MySQL和SQLServer)的差異。關係型數據庫採用行和列的表格結構組織數據,而MongoDB則使用靈活的面向文檔模型,更適應現代應用的需求。主要區別數據結構:關係型數據庫使用預定義模式的表格存儲數據,表間關係通過主鍵和外鍵建立;MongoDB使用類似JSON的BSON文檔存儲在集合中,每個文檔結構可獨立變化,實現無模式設計。架構設計:關係型數據庫需要預先定義固定的模式;MongoDB支持

在Debian系統上為MongoDB數據庫加密,需要遵循以下步驟:第一步:安裝MongoDB首先,確保您的Debian系統已安裝MongoDB。如果沒有,請參考MongoDB官方文檔進行安裝:https://docs.mongodb.com/manual/tutorial/install-mongodb-on-debian/第二步:生成加密密鑰文件創建一個包含加密密鑰的文件,並設置正確的權限:ddif=/dev/urandomof=/etc/mongodb-keyfilebs=512

要設置 MongoDB 用戶,請按照以下步驟操作:1. 連接到服務器並創建管理員用戶。 2. 創建要授予用戶訪問權限的數據庫。 3. 使用 createUser 命令創建用戶並指定其角色和數據庫訪問權限。 4. 使用 getUsers 命令檢查創建的用戶。 5. 可選地設置其他權限或授予用戶對特定集合的權限。

連接MongoDB的工具主要有:1. MongoDB Shell,適用於快速查看數據和執行簡單操作;2. 編程語言驅動程序(如PyMongo, MongoDB Java Driver, MongoDB Node.js Driver),適合應用開發,但需掌握其使用方法;3. GUI工具(如Robo 3T, Compass),提供圖形化界面,方便初學者和快速數據查看。選擇工具需考慮應用場景和技術棧,並註意連接字符串配置、權限管理及性能優化,如使用連接池和索引。
