MongoDB入门之索引(mongodb创建索引太慢了怎么办)
wptr33 2025-05-02 13:51 17 浏览
索引
就像书的目录,如果查找某内容在没有目录的帮助下,只能全篇查找翻阅,这导致效率非常的低下;如果在借助目录情况下,就能很快的定位具体内容所在区域,效率会直线提高。
索引简介
首先打开命令行,输入mongo
。默认mongodb会连接名为test
的数据库。
~ mongo
MongoDB shell version: 2.4.9
connecting to: test
> show collections
>
可以使用show collections/tables
查看数据库为空。
然后在mongodb命令行终端执行如下代码
> for(var i=0;i<100000;i++) {
... db.users.insert({username:'user'+i})
... }
> show collections
system.indexes
users
>
再查看数据库发现多了system.indexes
和users
两个表,前者即所谓的索引
,后者为新建的数据库表。
这样user
表中即有了10万
条数据。
> db.users.find
{ "_id" : ObjectId("5694d5da8fad9e319c5b43e4"), "username" : "user0" }
{ "_id" : ObjectId("5694d5da8fad9e319c5b43e5"), "username" : "user1" }
{ "_id" : ObjectId("5694d5da8fad9e319c5b43e6"), "username" : "user2" }
{ "_id" : ObjectId("5694d5da8fad9e319c5b43e7"), "username" : "user3" }
{ "_id" : ObjectId("5694d5da8fad9e319c5b43e8"), "username" : "user4" }
{ "_id" : ObjectId("5694d5da8fad9e319c5b43e9"), "username" : "user5" }
现在需要查找其中任意一条数据,比如
> db.users.find({username: 'user1234'})
{ "_id" : ObjectId("5694d5db8fad9e319c5b48b6"), "username" : "user1234" }
发现这条数据成功找到,但需要了解详细信息,需要加上explain
方法
> db.users.find({username: 'user1234'}).explain
{
"cursor" : "BasicCursor",
"isMultiKey" : false,
"n" : 1,
"nscannedObjects" : 100000,
"nscanned" : 100000,
"nscannedObjectsAllPlans" : 100000,
"nscannedAllPlans" : 100000,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 30,
"indexBounds" : {
},
"server" : "root:27017"
}
参数很多,目前我们只关注其中的"nscanned" : 100000
和"millis" : 30
这两项。
nscanned
表示mongodb在完成这个查询过程中扫描的文档总数。可以发现,集合中的每个文档都被扫描了,并且总时间为30毫秒。
如果数据有1000万个,如果每次查询文档都遍历一遍。呃,时间也是相当可观。
对于此类查询,索引是一个非常好的解决方案。
> db.users.ensureIndex({"username": 1})
然后再查找user1234
> db.users.ensureIndex({"username": 1})
> db.users.find({username: 'user1234'}).explain
{
"cursor" : "BtreeCursor username_1",
"isMultiKey" : false,
"n" : 1,
"nscannedObjects" : 1,
"nscanned" : 1,
"nscannedObjectsAllPlans" : 1,
"nscannedAllPlans" : 1,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 0,
"indexBounds" : {
"username" : [
[
"user1234",
"user1234"
]
]
},
"server" : "root:27017"
}
的确有点不可思议,查询在瞬间完成,因为通过索引只查找了一条数据,而不是100000条。
当然使用索引是也是有代价的:对于添加的每一条索引,每次写操作(插入、更新、删除)都将耗费更多的时间。这是因为,当数据发生变化时,不仅要更新文档,还要更新级集合上的所有索引。因此,mongodb限制每个集合最多有64个索引。通常,在一个特定的集合上,不应该拥有两个以上的索引。
小技巧
如果一个非常通用的查询,或者这个查询造成了性能瓶颈,那么在某字段(比如username
)建立索引是非常好的选择。但只是给管理员用的查询(不太在意查询耗费时间),就不该对这个字段建立索引。
复合索引
索引的值是按一定顺序排列的,所以使用索引键对文档进行排序非常快。
db.users.find.sort({'age': 1, 'username': 1})
这里先根据age排序再根据username排序,所以username在这里发挥的作用并不大。为了优化这个排序,可能需要在age和username上建立索引。
db.users.ensureIndex({'age':1, 'username': 1})
这就建立了一个复合索引
(建立在多个字段上的索引),如果查询条件包括多个键,这个索引就非常有用。
建立复合索引后,每个索引条目都包括一个age字段和一个username字段,并且指向文档在磁盘上的存储位置。此时,age字段是严格升序排列的,如果age相等时再按照username升序排列。
查询方式
点查询(point query)
用于查询单个值(尽管包含这个值的文档可能有多个)
db.users.find({'age': 21}).sort({'username': -1})
因为我们已经建立好复合索引,一个age
一个username
,建立索引时使用的是升序排序(即数字1
),当使用点查询查找{age:21}
,假设仍然是10万条数据,可能年龄是21的很多人,因此会找到不只一条数据。然后sort({'username': -1})
会对这些数据进行逆序排序,本意是这样。但我们不要忘记建立索引时'username':1
是升序(从小到大),如果想得到逆序只要对数据从最后一个索引开始,依次遍历即可得到想要的结果。
排序方向并不重要,mongodb可以从任意方向对索引进行遍历。
综上,复合索引在点查询这种情况非常高效,直接定位年龄,不需要对结果进行排序,返回结果。
多值查询(multi-value-query)
db.users.find({'age': {"$gte": 21, "$lte": 30}})
查找多个值相匹配的文档。多值查询
也可以理解为多个点查询
。
如上,要查找年龄介于21到30之间。monogdb会使用索引的中的第一个键"age"
得到匹配的结果,而结果通常是按照索引顺序排列的。
db.users.find({'age': {"$gte": 21, "$lte": 30}}).sort({'username': 1})
与上一个类似,这次需要对结果排序。
在没有sort
时,我们查询的结果首先是根据age等于21,age等于22..这样从小到大排序,当age等于21有多个时,在进行username
A-Z(0-9)这样排序。所以,sort({'username': 1})
,要将所有结果通过名字升序排列,这次不得不先在内存中进行排序,然后返回。效率不如上一个高。
当然,在文档非常少的情况,排序也花费不了多少时间。如果结果集很大,比如超过32MB,MongoDB会拒绝对如此多的数据进行排序工作。
还有另外一种解决方案
也可以建立另外一个索引{'username': 1, 'age': 1}
, 如果先对username
建立索引,当再sortusername
,相当没有进行排序。但是需要在整个文档查找age等于21的帅哥美女,所以搜寻时间就长了。
效率高低是分情况的,如果在没有限制的情况下,不用进行排序但需要搜索整个集合时间会远超过前者。但是在返回部分数据(比如limit(1000)
),新的赢家就产生了。
>db.users.find({'age': {"$gte": 21, "$lte": 30}}).
sort({username': 1}).
limit(1000).
hint({'age': 1, 'username': 1})
explain['millis']
2031ms
>db.users.find({'age': {"$gte": 21, "$lte": 30}}).
sort({username': 1}).
limit(1000).
hint({'username': 1, 'age': 1}).
explain['millis']
181ms
其中可以使用hint
指定要使用的索引。
所以这种方式还是很有优势的。比如一般场景下,我们不会把所有的数据都取出来,只是去查询最近的,所以这种效率也会更高。
索引类型
唯一索引
可以确保集合的每个文档的指定键都有唯一值。
db.users.ensureIndex({'username': 1, unique: true})
比如使用mongoose框架,在定义schema时,即可指定unique: true
.
如果插入2个相同都叫张三的数据,第二次插入的则会失败。_id
即为唯一索引,并且不能删除。
稀疏索引
使用sparse
可以创建稀疏索引
>db.users.ensureIndex({'email': 1}, {'unique': true, 'sparse': true})
索引管理
system.indexes集合中包含了每个索引的详细信息
db.system.indexes.find
1.ensureIndex
创建索引
db.users.ensureIndex({'username': 1})
后台创建索引,这样数据库再创建索引的同时,仍然能够处理读写请求,可以指定background
选项。
db.test.ensureIndex({"username":1},{"background":true})
2.getIndexes
查看索引
db.collectionName.getIndexes
db.users.getIndexes
[
{
"v" : 1,
"key" : {
"_id" : 1
},
"ns" : "test.users",
"name" : "_id_"
},
{
"v" : 1,
"key" : {
"username" : 1
},
"ns" : "test.users",
"name" : "username_1"
}
]
其中v
字段只在内部使用,用于标识索引版本。
3.dropIndex
删除索引
> db.users.dropIndex("username_1")
{ "nIndexesWas" : 2, "ok" : 1 }
或
> db.users.dropIndex({"username":1})
相关推荐
- SQL轻松入门(5):窗口函数(sql语录中加窗口函数的执行)
-
01前言标题中有2个字让我在初次接触窗口函数时,真真切切明白了何谓”高级”?说来也是一番辛酸史!话说,我见识了窗口函数的强大后,便磨拳擦掌的要试验一番,结果在查询中输入语句,返回的结果却是报错,Wh...
- 28个SQL常用的DeepSeek提示词指令,码住直接套用
-
自从DeepSeek出现后,极大地提升了大家平时的工作效率,特别是对于一些想从事数据行业的小白,只需要掌握DeepSeek的提问技巧,SQL相关的问题也不再是个门槛。...
- 从零开始学SQL进阶,数据分析师必备SQL取数技巧,建议收藏
-
上一节给大家讲到SQL取数的一些基本内容,包含SQL简单查询与高级查询,需要复习相关知识的同学可以跳转至上一节,本节给大家讲解SQL的进阶应用,在实际过程中用途比较多的子查询与窗口函数,下面一起学习。...
- SQL_OVER语法(sql语句over什么含义)
-
OVER的定义OVER用于为行定义一个窗口,它对一组值进行操作,不需要使用GROUPBY子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。...
- SQL窗口函数知多少?(sql窗口怎么执行)
-
我们在日常工作中是否经常会遇到需要排名的情况,比如:每个部门按业绩来排名,每人按绩效排名,对部门销售业绩前N名的进行奖励等。面对这类需求,我们就需要使用sql的高级功能——窗口函数。...
- 如何学习并掌握 SQL 数据库基础:从零散查表到高效数据提取
-
无论是职场数据分析、产品运营,还是做副业项目,掌握SQL(StructuredQueryLanguage)意味着你能直接从数据库中提取、分析、整合数据,而不再依赖他人拉数,节省大量沟通成本,让你...
- SQL窗口函数(sql窗口函数执行顺序)
-
背景在数据分析中,经常会遇到按某某条件来排名、并找出排名的前几名,用日常SQL的GROUPBY,ORDERBY来实现特别的麻烦,有时甚至实现不了,这个时候SQL窗口函数就能发挥巨大作用了,窗...
- sqlserver删除重复数据只保留一条,使用ROW_NUMER()与Partition By
-
1.使用场景:公司的小程序需要实现一个功能:在原有小程序上,有一个优惠券活动表。存储着活动产品数据,但因为之前没有做约束,导致数据的不唯一,这会使打开产品详情页时,可能会出现随机显示任意活动问题。...
- SQL面试经典问题(一)(sql经典面试题及答案)
-
以下是三个精心挑选的经典SQL面试问题及其详细解决方案,涵盖了数据分析、排序限制和数据清理等常见场景。这些问题旨在考察SQL的核心技能,适用于初学者到高级开发者的面试准备。每个问题均包含清晰的...
- SQL:求连续N天的登陆人员之通用解答
-
前几天发了一个微头条:...
- SQL四大排序函数神技(sql中的排序是什么语句)
-
在日常SQL开发中,排序操作无处不在。当大家需要排序时,是否只会想到ORDERBY?今天,我们就来揭秘SQL中四个强大却常被忽略的排序函数:ROW_NUMBER()、RANK()、DENSE_RAN...
- 四、mysql窗口函数之row_number()函数的使用
-
1、窗口函数之row_number()使用背景窗口函数中,排序函数rank(),dense_rank()虽说都是排序函数,但是各有用处,假如像上章节说的“同组同分”两条数据,我们不想“班级名次”出现“...
- ROW_NUMBER()函数(rownumber函数与rank区别)
-
ROW_NUMBER()是SQL中的一个窗口函数(WindowFunction)...
- Dify「模板转换」节点终极指南:动态文本生成进阶技巧(附代码)Jinja2引擎解析
-
这篇文章是关于Dify「模板转换」节点的终极指南,解析了基于Jinja2模板引擎的动态文本生成技巧,涵盖多源文本整合、知识检索结构化、动态API构建及个性化内容生成等六大应用场景,助力开发者高效利用模...
- Python 最常用的语句、函数有哪些?
-
1.#coding=utf-8①代码中有中文字符,最好在代码前面加#coding=utf-8②pycharm不加可能不会报错,但是代码最终是会放到服务器上,放到服务器上的时候运行可能会报错。③...
- 一周热门
-
-
C# 13 和 .NET 9 全知道 :13 使用 ASP.NET Core 构建网站 (1)
-
因果推断Matching方式实现代码 因果推断模型
-
git pull命令使用实例 git pull--rebase
-
git 执行pull错误如何撤销 git pull fail
-
面试官:git pull是哪两个指令的组合?
-
git pull 和git fetch 命令分别有什么作用?二者有什么区别?
-
git fetch 和git pull 的异同 git中fetch和pull的区别
-
git pull 之后本地代码被覆盖 解决方案
-
还可以这样玩?Git基本原理及各种骚操作,涨知识了
-
git命令之pull git.pull
-
- 最近发表
- 标签列表
-
- git pull (33)
- git fetch (35)
- mysql insert (35)
- mysql distinct (37)
- concat_ws (36)
- java continue (36)
- jenkins官网 (37)
- mysql 子查询 (37)
- python元组 (33)
- mybatis 分页 (35)
- vba split (37)
- redis watch (34)
- python list sort (37)
- nvarchar2 (34)
- mysql not null (36)
- hmset (35)
- python telnet (35)
- python readlines() 方法 (36)
- munmap (35)
- docker network create (35)
- redis 集合 (37)
- python sftp (37)
- setpriority (34)
- c语言 switch (34)
- git commit (34)