Page 41 - BP_201909
P. 41

[管理运营Management]



             三.实时应用集群数据库系统                                      服务器(fault tolerance server),该服务器在高速ETC、国家气
                                                                象、国家电网、钢铁生产等行业广泛应用。这些行业的安全性
                                                                要求与播出等同,容错服务器能否为我所用,我们作了必要的
                                                                分析调研。







             图3 实时应用集群数据库双机热备

                 数据库,有一台主机处于待机状态,未对外提供服务,存
             在浪费现象,并且倒换时会中断1分钟左右,对于访问数量较大
             的业务(如金融、票务等)不太适合,这种环境下可采用实时应                       图4 容错服务器结构展示
             用集群。
                 实时应用集群数据库RAC(real  application  clusters)多见        从图4左边可以看到,容错服务器是一个可以插入两个服
             于Oracle数据库,是一种集数据多重复制、负载均衡、多层次                     务器模块的机箱,形成一个完整的容错服务器。从图4右边可以
             故障转移的系统架构。在该架构中,前台有多个主机,每个主                        看到,两个模块并非独立存在,而是通过Lockstep关联起来。
             机有两个网卡,每个网卡有一个IP地址。在后台,用SAN网络                      正是这个关联,解决了前面说的三种架构中数据同步、心跳检
             部署块级(B L O C K)存储,实现数据多重复制和故障转移。另                  测、故障切换的问题。
             外,还有心跳线专属网络,这是系统正常工作的首要条件。                             在安装部署上,一个容错服务器就是一个框体,自然不再
                 需要特别补充说明的是,在该架构中,Oracle数据库系统                   需要集群软件,操作系统、数据库软件只需安装一次(在购买
             自动部署Servicename服务,该服务类似于DNS,实现负载均                  操作系统和数据库软件时,也只支付单台服务器费用),便自动
             衡。客户端连接数据库时,首先连接Servicename服务,得到                   同步到两个模块。运行管理上,也就是一台服务器,但从内部
             相应的IP地址和数据库SID,当有多个客户端连接时,每个客                      看,具备完整的硬件容错、数据镜像、失效切换、安全离线等
             户端得到IP地址和SID都不同,分别对应不同的主机,实现了                      机制。
             负载均衡。当某个主机一个网卡的网线断开后,这个网卡的IP                           容错服务器的设计理念,是将主要的硬件(CPU、内存、
             地址便转移到另一网卡;当两个网卡的网线都断开后,两个IP                       主板、I/O设备、硬盘驱动器和风扇)全部冗余化,实现在同
             地址都转移到另外的主机。在发生网卡断线、主机失效等情况                        一框体内的两台完整的服务器之间形成完全冗余结构,以提供
             时,servicename服务系统会相应调整分配策略,以实现可靠的                  服务器的连续可用能力。容错服务器上线后,无间断运行、无
             故障转移和负载均衡。                                         中断维护,系统运行状态下可直接拉出故障模块进行维修,修
                 实时应用集群数据库,从多个层次保障了数据的安全性                       复后可直接插入模块,恢复到原始冗余状态。容错服务器的冗
             和服务的连续性,能够满足金融、股票等访问量很大的业务需                        余机制见图5。
             求。但该架构的缺点是系统复杂,对系统环境要求极高,稍不
             满足就可能发生故障,维护成本高。在现实应用中,出现过网
             络的瞬间丢包导致切换,也出现过因网络的轻微故障导致保护
             性关机的情况。


             四.容错服务器搭建数据库
                 前面介绍的三种数据库架构,关系到三个层次:硬件及
             OS、集群软件、数据库软件,结构复杂。在安装部署时,有复
             杂的连接线,如SAS电缆、SAN存储系统、心跳线,这些连接
             线要求很高,稍有缺陷便会成为隐患。然后每台主机安装操作                        图5 容错服务器的冗余机制
             系统和集群软件,最复杂的是集群软件的资源配置,几乎涉及
             所有硬件的参数,没有足够的经验是没有把握的,在日常应用
             中,还要定期进行倒换实验。尽管做了如此多而复杂的工作,                        五.总结
             这三种架构的数据库故障并未显著降低,离安全播出的“零事                            在播出一线,效率和安全是王道,系统建设应该朝着傻瓜
             故”要求相差甚远。                                          化努力,降低系统的技术门槛,减轻运行维护人员的负担,把
                 这三种架构的数据库,我台均采用过,但都不省心。在建                      精力投入到提升业务水平、产生更多的效益上去。在采用容错
             设全频道高清播出系统时,我们再次为数据库的选型而纠结。                        服务器后,数据库变得非常简单,只需做好日常巡查和数据备
             “众里寻他千百度……”,一个偶然的机会,我们了解到容错                        份,经过两年多的使用证明,容错服务器的确安全省心。B&P



                                                                                                                41
   36   37   38   39   40   41   42   43   44   45   46