MongoDB复制集分片搭建

架构

03_MongoDB集群.png

常见概念

mongos

数据库集群请求的入口,所有的请求都通过 mongos 进行协调,不需要在应用程序添加一个路由选择器,mongos 自己就是一个请求分发中心,它负责把对应的数据请求请求转发到对应的 shard 服务器上。

在生产环境通常有多 mongos 作为请求的入口,防止其中一个挂掉所有的 mongodb 请求都没有办法操作。

config server

顾名思义为配置服务器,存储所有数据库元信息(路由、分片)的配置。mongos 本身没有物理存储分片服务器和数据路由信息,只是缓存在内存里,配置服务器则实际存储这些数据。

mongos 第一次启动或者关掉重启就会从 config server 加载配置信息,以后如果配置服务器信息变化会通知到所有的 mongos 更新自己的状态,这样 mongos 就能继续准确路由。

在生产环境通常有多个 config server 配置服务器,因为它存储了分片路由的元数据,防止数据丢失!

shard

分片(sharding)是指将数据库拆分,将其分散在不同的机器上的过程。将数据分散到不同的机器上,不需要功能强大的服务器就可以存储更多的数据和处理更大的负载。

基本思想就是将集合切成小块,这些块分散到若干片里,每个片只负责总数据的一部分,最后通过一个均衡器来对各个分片进行均衡(数据迁移)。

replica set

中文翻译副本集,其实就是 shard 的备份,防止 shard 挂掉之后数据丢失。复制提供了数据的冗余备份,并在多个服务器上存储数据副本,提高了数据的可用性, 并可以保证数据的安全性。

仲裁者(Arbiter)

是复制集中的一个 MongoDB 实例,它并不保存数据。仲裁节点使用最小的资源并且不要求硬件设备,不能将 Arbiter 部署在同一个数据集节点中,可以部署在其他应用服务器或者监视服务器中,也可部署在单独的虚拟机中。

为了确保复制集中有奇数的投票成员(包括 primary),需要添加仲裁节点做为投票,否则 primary 不能运行时不会自动切换 primary。

我们可以这样总结一下,应用请求 mongos 来操作 mongodb 的增删改查,配置服务器存储数据库元信息,并且和 mongos 做同步,数据最终存入在 shard(分片)上,为了防止数据丢失同步在副本集中存储了一份,仲裁在数据存储到分片的时候决定存储到哪个节点。

环境准备

服务器准备

服务器135 服务器132 服务器133
mongos mongos mongos
config server config server config server
shared server1主节点 shared server1副节点 shared server1仲裁
shared server2仲裁 shared server1主节点 shared server2副节点
shared server3副节点 shared server1仲裁 shared server3主节点

端口分配

服务 端口
mongos 20000
config 21000
shard1 27001
shard2 27002
shard3 27003

环境准备

分别在每台机器建立 conf、mongos、config、shard1、shard2、shard3 六个目录,因为 mongos 不存储数据,只需要建立日志文件目录即可。

mkdir -p /usr/local/mongodb/conf mkdir -p /usr/local/mongodb/mongos/log mkdir -p /usr/local/mongodb/config/data mkdir -p /usr/local/mongodb/config/log mkdir -p /usr/local/mongodb/shard1/data mkdir -p /usr/local/mongodb/shard1/log mkdir -p /usr/local/mongodb/shard2/data mkdir -p /usr/local/mongodb/shard2/log mkdir -p /usr/local/mongodb/shard3/data mkdir -p /usr/local/mongodb/shard3/log

配置环境变量

vim /etc/profile # 内容 export MONGODB_HOME=/usr/local/mongodb export PATH=$MONGODB_HOME/bin:$PATH # 使立即生效 source /etc/profile

config server配置服务器

mongodb3.4 以后要求配置服务器也创建副本集,不然集群搭建不成功。添加配置文件:

vi /usr/local/mongodb/conf/config.conf ## 配置文件内容 pidfilepath = /usr/local/mongodb/config/log/configsrv.pid dbpath = /usr/local/mongodb/config/data logpath = /usr/local/mongodb/config/log/congigsrv.log logappend = true port = 21000 fork = true #declare this is a config db of a cluster; configsvr = true #副本集名称 replSet=configs (有些版本不需要configserver配置副本集) #设置最大连接数 maxConns=20000

启动三台服务器的 config server:

mongod -f /usr/local/mongodb/conf/config.conf

登录任意一台配置服务器,初始化配置副本集 (有些版本不需要 configserver 配置副本集):

#连接 mongo --port 21000 #config变量 config = { ... _id : "configs", ... members : [ ... {_id : 0, host : "192.168.0.75:21000" }, ... {_id : 1, host : "192.168.0.84:21000" }, ... {_id : 2, host : "192.168.0.86:21000" } ... ] ... } #初始化副本集 rs.initiate(config)

其中,”_id” : “configs” 应与配置文件中配置的 replicaction.replSetName 一致,”members” 中的 “host” 为三个节点的 ip 和 port。

配置分片副本集(三台机器)

设置第一个分片副本集:

vi /usr/local/mongodb/conf/shard1.conf #配置文件内容 #——————————————– pidfilepath = /usr/local/mongodb/shard1/log/shard1.pid dbpath = /usr/local/mongodb/shard1/data logpath = /usr/local/mongodb/shard1/log/shard1.log logappend = true bind_ip = 0.0.0.0 port = 27001 fork = true #打开web监控 httpinterface=true rest=true #副本集名称 replSet=shard1 #declare this is a shard db of a cluster; shardsvr = true #设置最大连接数 maxConns=20000

启动三台服务器的 shard1 server:

mongod -f /usr/local/mongodb/conf/shard1.conf

登陆任意一台服务器,初始化副本集:

mongo --port 27001 # 使用admin数据库 use admin # 定义副本集配置,第三个节点的 "arbiterOnly":true 代表其为仲裁节点。 config = { id : "shard1", members : [ {id : 0, host : "192.168.33.135:27001" }, {id : 1, host : "192.168.33.132:27001" }, {id : 2, host : "192.168.33.133:27001" , arbiterOnly: true } ] }

初始化副本集配置:

rs.initiate(config);

设置第二个分片副本集:

vi /usr/local/mongodb/conf/shard2.conf pidfilepath=/usr/local/mongodb/shard2/log/shard2.pid dbpath=/usr/local/mongodb/shard2/data logpath=/usr/local/mongodb/shard2/log/shard2.log logappend=true port = 27002 fork = true #打开web监控 httpinterface=true rest=true #副本集名称 replSet=shard2 #declare this is a shard db of a cluster; shardsvr=true #设置最大连接数 maxConns=20000

启动三台服务器的 shard2 server:

mongod -f /usr/local/mongodb/conf/shard2.conf

登陆任意一台服务器,初始化副本集:

mongo --port 27002 # 使用admin数据库 use admin # 定义副本集配置 config = { id : "shard2", members : [ {id : 0, host : "192.168.33.135:27002" , arbiterOnly: true }, {id : 1, host : "192.168.33.132:27002" }, {id : 2, host : "192.168.33.133:27002" } ] } #初始化副本集配置 rs.initiate(config);

设置第三个分片副本集:

vi /usr/local/mongodb/conf/shard3.conf pidfilepath=/usr/local/mongodb/shard3/log/shard3.pid dbpath=/usr/local/mongodb/shard3/data logpath=/usr/local/mongodb/shard3/log/shard3.log logappend=true port=27003 fork=true #打开web监控 httpinterface=true rest=true #副本集名称 replSet=shard3 #declare this is a shard db of a cluster; shardsvr=true #设置最大连接数 maxConns=20000

启动三台服务器的 shard3 server:

mongod -f /usr/local/mongodb/conf/shard3.conf

登陆任意一台服务器,初始化副本集:

mongo --port 27003 #使用admin数据库 use admin #定义副本集配置 config = { id : "shard3", members : [ {id : 0, host : "192.168.33.135:27003" }, {id : 1, host : "192.168.33.132:27003" , arbiterOnly: true}, {id : 2, host : "192.168.33.133:27003" } ] } #初始化副本集配置 rs.initiate(config);

配置路由服务器mongos

先启动配置服务器和分片服务器,后启动路由实例启动路由实例:(三台机器)

vi /usr/local/mongodb/conf/mongos.conf #内容 pidfilepath=/usr/local/mongodb/mongos/log/mongos.pid logpath=/usr/local/mongodb/mongos/log/mongos.log logappend=true port=20000 fork=true #监听的配置服务器,只能有1个或者3个 configs为配置服务器的副本集名字 #configdb=configs/192.168.33.135:21000,192.168.33.132:21000,192.168.33.133:21000 configdb=192.168.33.135:21000,192.168.33.132:21000,192.168.33.133:21000 #设置最大连接数 maxConns=20000

启动三台服务器的 mongos server:

mongos -f /usr/local/mongodb/conf/mongos.conf

启用分片

目前搭建了 mongodb 配置服务器、路由服务器,各个分片服务器,不过应用程序连接到 mongos 路由服务器并不能使用分片机制,还需要在程序里设置分片配置,让分片生效。

登陆任意一台 mongos:

mongo --port 20000 #使用admin数据库 user admin #串联路由服务器与分配副本集 sh.addShard("shard1/192.168.33.135:27001,192.168.33.132:27001,192.168.33.133:27001") sh.addShard("shard2/192.168.33.135:27002,192.168.33.132:27002,192.168.33.133:27002") sh.addShard("shard3/192.168.33.135:27003,192.168.33.132:27003,192.168.33.133:27003") #查看集群状态 sh.status()

目前配置服务、路由服务、分片服务、副本集服务都已经串联起来了,但我们的目的是希望插入数据,数据能够自动分片。连接在 mongos 上,准备让指定的数据库、指定的集合分片生效。

# 指定testdb分片生效 db.runCommand( { enablesharding :"testdb"}); # 指定数据库里需要分片的集合和片键 db.runCommand( { shardcollection : "testdb.table1",key : {id: "hashed"} } )

我们设置 testdb 的 table1 表需要分片,根据 id 自动分片到 shard1 ,shard2,shard3 上面去。要这样设置是因为不是所有 mongodb 的数据库和表都需要分片!

测试分片配置结果:

mongo 127.0.0.1:20000 #使用testdb use testdb; #插入测试数据 for (var i = 1; i <= 100000; i++) db.table1.save({id:i,"test1":"testval1"}); #查看分片情况如下,部分无关信息省掉了 db.table1.stats();