通过 MongoDB 日志信息定位操作来源
起因
一天中午突然发现生产系统使用的 MongoDB 库被删掉了。幸亏有备份,很快恢复,生产系统并未受很大影响。问了团队成员,都未进行过删除操作,说明可能是两种情况:一、误删,连操作者自己也没意识到做了一个删除操作;二、bug,在某个程序中存在一个 bug。
local.oplog.rs
MongoDB 的复制集是通过 oplog 来实现的,主库的更改操作会被记录到主库的 oplog 日志中,然后从库通过异步方式复制主库的 oplog 文件并且将 oplog 日志应用到从库,从而实现了与主库的同步。
先查看 oplog 看是否有删除操作。查过之后,并未发现有 remove 的操作。
oplog 说明:
1 | > db.oplog.rs.findOne() |
- ts:8字节的时间戳,由4字节unix timestamp + 4字节自增计数表示。这个值很重要,在选举(如master宕机时)新primary时,会选择ts最大的那个secondary作为新primary。
- op:1字节的操作类型,例如:
- “i”: insert
- “u”: update
- “d”: delete
- “c”: db cmd
- “db”:声明当前数据库 (其中ns 被设置成为=>数据库名称+ ‘.’)
- “n”: no op,即空操作,其会定期执行以确保时效性
- ns:操作所在的namespace。
- o:操作所对应的document,即当前操作的内容(比如更新操作时要更新的的字段和值)
- o2: 在执行更新操作时的where条件,仅限于update时才有该属性。
MongoDB 系统日志
MongoDB 系统日志路径从配置文件中可以查看。MongoDB 进程信息中可以看到配置文件的位置:
1 | [root@10-180-86-57 ~]# ps -ef|grep mongo |
日志文件路径配置如下:
1 | [root@10-180-86-57 ~]# more /usr/local/mongodb/mongodb.conf |
查看日志信息发现有 dropDatabase 的操作:
1 | [root@10-180-86-57 log]# cat mongodb.log |grep dropDatabase |
md 正是被删除的库。时间范围已经明确,剩下的就是找到删除操作的来源,通过时间查看该时间前有哪些 IP 连接了数据库:
1 | [root@10-180-86-57 log]# cat mongodb.log |grep "2016-05-24T11:24" |
发现在这个时间有一个内容 IP(10.57.172.146) 有连接数据库的操作。虽然问题没有重新,但基本可能定位为误删操作。review 同事代码确定没有问题后,问题没有再现。
解决方案
读写权限分离
这个库下存放的都是配置信息,变动很少,但读取很频繁,而且多个地方都会读取。为了控制权限,创建这个库的只读账号,对外只开放只读账号,只有管理功能使用可写账号。
备份
这次事故就是因为有备份才可以快速恢复的。