Page 41 - BP_201909
P. 41
[管理运营Management]
三.实时应用集群数据库系统 服务器(fault tolerance server),该服务器在高速ETC、国家气
象、国家电网、钢铁生产等行业广泛应用。这些行业的安全性
要求与播出等同,容错服务器能否为我所用,我们作了必要的
分析调研。
图3 实时应用集群数据库双机热备
数据库,有一台主机处于待机状态,未对外提供服务,存
在浪费现象,并且倒换时会中断1分钟左右,对于访问数量较大
的业务(如金融、票务等)不太适合,这种环境下可采用实时应 图4 容错服务器结构展示
用集群。
实时应用集群数据库RAC(real application clusters)多见 从图4左边可以看到,容错服务器是一个可以插入两个服
于Oracle数据库,是一种集数据多重复制、负载均衡、多层次 务器模块的机箱,形成一个完整的容错服务器。从图4右边可以
故障转移的系统架构。在该架构中,前台有多个主机,每个主 看到,两个模块并非独立存在,而是通过Lockstep关联起来。
机有两个网卡,每个网卡有一个IP地址。在后台,用SAN网络 正是这个关联,解决了前面说的三种架构中数据同步、心跳检
部署块级(B L O C K)存储,实现数据多重复制和故障转移。另 测、故障切换的问题。
外,还有心跳线专属网络,这是系统正常工作的首要条件。 在安装部署上,一个容错服务器就是一个框体,自然不再
需要特别补充说明的是,在该架构中,Oracle数据库系统 需要集群软件,操作系统、数据库软件只需安装一次(在购买
自动部署Servicename服务,该服务类似于DNS,实现负载均 操作系统和数据库软件时,也只支付单台服务器费用),便自动
衡。客户端连接数据库时,首先连接Servicename服务,得到 同步到两个模块。运行管理上,也就是一台服务器,但从内部
相应的IP地址和数据库SID,当有多个客户端连接时,每个客 看,具备完整的硬件容错、数据镜像、失效切换、安全离线等
户端得到IP地址和SID都不同,分别对应不同的主机,实现了 机制。
负载均衡。当某个主机一个网卡的网线断开后,这个网卡的IP 容错服务器的设计理念,是将主要的硬件(CPU、内存、
地址便转移到另一网卡;当两个网卡的网线都断开后,两个IP 主板、I/O设备、硬盘驱动器和风扇)全部冗余化,实现在同
地址都转移到另外的主机。在发生网卡断线、主机失效等情况 一框体内的两台完整的服务器之间形成完全冗余结构,以提供
时,servicename服务系统会相应调整分配策略,以实现可靠的 服务器的连续可用能力。容错服务器上线后,无间断运行、无
故障转移和负载均衡。 中断维护,系统运行状态下可直接拉出故障模块进行维修,修
实时应用集群数据库,从多个层次保障了数据的安全性 复后可直接插入模块,恢复到原始冗余状态。容错服务器的冗
和服务的连续性,能够满足金融、股票等访问量很大的业务需 余机制见图5。
求。但该架构的缺点是系统复杂,对系统环境要求极高,稍不
满足就可能发生故障,维护成本高。在现实应用中,出现过网
络的瞬间丢包导致切换,也出现过因网络的轻微故障导致保护
性关机的情况。
四.容错服务器搭建数据库
前面介绍的三种数据库架构,关系到三个层次:硬件及
OS、集群软件、数据库软件,结构复杂。在安装部署时,有复
杂的连接线,如SAS电缆、SAN存储系统、心跳线,这些连接
线要求很高,稍有缺陷便会成为隐患。然后每台主机安装操作 图5 容错服务器的冗余机制
系统和集群软件,最复杂的是集群软件的资源配置,几乎涉及
所有硬件的参数,没有足够的经验是没有把握的,在日常应用
中,还要定期进行倒换实验。尽管做了如此多而复杂的工作, 五.总结
这三种架构的数据库故障并未显著降低,离安全播出的“零事 在播出一线,效率和安全是王道,系统建设应该朝着傻瓜
故”要求相差甚远。 化努力,降低系统的技术门槛,减轻运行维护人员的负担,把
这三种架构的数据库,我台均采用过,但都不省心。在建 精力投入到提升业务水平、产生更多的效益上去。在采用容错
设全频道高清播出系统时,我们再次为数据库的选型而纠结。 服务器后,数据库变得非常简单,只需做好日常巡查和数据备
“众里寻他千百度……”,一个偶然的机会,我们了解到容错 份,经过两年多的使用证明,容错服务器的确安全省心。B&P
41