作者简介:游海鸿,本科学历,高级工程师。
我院自2000年实施医疗信息化以来, 已逐步建成了医院信息系统(hospital information system, HIS)、检验信息系统(lab information system, LIS)、图像传输与归档系统(picture archiving and communication system, PACS)。这些信息系统24小时不间断地运行, 同时也产生了大量宝贵的医疗数据, 这些数据为医院的发展提供了科学的支持。为保障信息系统运行的连续性和医疗数据的安全性, 建立一个科学、有效的容灾备份系统也成为每个医院信息化建设的重中之重。
1.1.1 HIS数据库 容灾备份方案采用的是双机容错+磁盘阵列+低配置备份服务器。两台IBMX3650M2服务器利用WINDOWS操作系统自带的集群管理功能构成一个集群, 并通过光纤与IBMDS4700磁盘阵列柜连接, 实现主-备工作模式, 磁盘阵中的6块磁盘做成RAID5。生产服务器每日凌晨1:00运行Windows任务计划, 执行备份批处理文件, 将数据库全量导出为DMP格式的文件, 存储在备份服务器上, 以周为单位循环覆盖。
1.1.2 PACS系统 容灾备份方案采用的是磁盘阵列(network attached storage, NAS)+离线存储。一台服务器主机通过网络与NetApp FAS2040A存储阵列连接, 磁盘阵列采用RAID DP技术。服务器每日凌晨1:00运行备份计划任务, 将数据备份到移动硬盘, 备份方式采用增量备份。
1.1.3 LIS系统 因为数据量较小, 其容灾备份方案采用服务器内置镜像硬盘+离线存储。LIS服务器采用IBMXSERIES205, 内置2块80 G硬盘, 通过硬盘镜像达到容灾目的。服务器每日凌晨1:00运行备份计划任务, 将LIS数据库全量备份到移动硬盘。
1.2.1 容灾能力不高 HIS、PACS、LIS的容灾备份系统都存在容灾能力不高的情况。对于HIS系统而言, 一旦磁盘阵列出现两块或两块以上磁盘损坏, 数据库将无法启动, 当天数据也将丢失, 而备份服务器由于配置较低, 无法接替现有系统的功能, 整个HIS系统将处于瘫痪状态。LIS和PACS服务器由于均采用单节点运行模式, 当服务器硬件或软件出现问题时, 同样也会造成LIS和PACS系统长时间瘫痪和数据丢失, 影响相关科室的正常工作。
1.2.2 灾难恢复时间长 灾难恢复包括重建系统环境和恢复数据库。目前的恢复方案是从备份服务器或磁盘通过网络或USB接口向在用服务器硬盘传输数据。但由于数据量大, 磁盘读写速度慢, 所以数据传输时间长。同时还由于缺少用于恢复测试的硬件环境, 数据恢复经验不足, 因而很可能会出现恢复失败的意外情况, 同样也延长了数据恢复时间
1.2.3 备份数据的存储安全性低 HIS系统利用低配置的服务器硬盘存储备份数据, LIS与PACS系统的备份数据存储于移动硬盘。这种存储备份数据的介质安全性低, 一旦用于备份的磁盘出现故障, 备份数据将无效, 这将会给医院带来不可估量的损失。
(1)实现在用系统和备用系统的快速切换[1]; (2)实现业务系统运行环境和数据库的多级备份, 确保备份数据的安全; (3)支持Oracle和SQL Server等多种数据库数据的在线备份, 支持以非脚本方式实现对Oracle数据库的单表级粒度恢复, 并且保证数据库数据的一致性和完整性; (4)备用系统能够支持在同一平台上并行多个操作系统和数据库。
对于要求24小时不间断的信息系统而言, 目前可供选择的容灾备份方案很多, 有基于智能存储技术的解决方案, 包括EMC Symmetrix远程镜像技术整体解决方案[2], IBM 同层远程复制技术(peer-to-peer remote copy, PPRC)及国产品牌爱数 AnyBackup整体解决方案等。有基于软件复制技术的解决方案, 如:VERITAS公司提供的VVR软件, 可实现在主点和备点之间进行同步或异步的数据库或应用数据的复制。另外还有基于数据库的数据备份技术以及快照技术等。
综合考虑我院信息化建设的实际需求和经济投入等因素, 经过反复论证, 确定采用爱数AnyBackup整体解决方案对数据备份方式、备份存储介质, 以及恢复方式进行全面升级改造。改造后的容灾备份系统网络示意图如图1。
配置一台爱数备份一体机VX1200, 安装介质服务器主模块。主模块的功能包括数据远程复制、备份策略设置、重复数据删除等。一体机中配有6个2 T的SATA硬盘, 总容量为12 T, 64 G高速缓存, 2个Intel千兆以太网接口。通过二级交换机与医院局域网连接, 采用基于集中式管理的存储区域网络(storage area net, SAN)模式进行数据传输, 以提高备份效率。在备份策略上VX1200支持定时备份策略和数据连续保护(continuous data protection, CDP)技术[1, 3], 但是考虑到我院生产服务器硬件配置不高, 如果采用CDP技术, 将会延迟生产服务器对客户端请求的相应时间, 尤其在数据交换高峰期延迟将会非常明显, 所以最终仍采取定时备份策略。具体备份方案为周日至周五, 从上午7:00开始, 每隔4小时进行一次增量备份, 每周六凌晨1:00进行完全备份。备份内容为HIS、LIS、PACS服务器的系统运行环境、Oracle 11g数据库、病历文件以及Oracle数据库归档文件。配置一台爱数VX1200介质服务器作为二级备份, 配有6个2T的SATA硬盘, 总容量为12 T, 64 G高速缓存, 2个Intel千兆以太网接口。其功能是同步备份一体机的数据, 若备份一体机出现数据丢失, 可从二级备份介质向备份一体机恢复数据。VX1200通过二级交换机与局域网连接, 放置于另一个机房, 以提高备份数据的安全性[4]。
配置一台性能较高的备用服务器。备用服务器采用IBM3650 M5。配置为2个CPU, 16 G内存, 4 T SAS硬盘。安装虚拟化管理程序VMware ESXI 6.0.0-u1, 将物理服务器划分为3个虚拟逻辑服务器, 在每个虚拟服务器上建立与HIS、LIS、PACS生产服务器相同的运行环境和数据库系统。备用服务器主要有两个功能:首先是充当恢复测试用机, 将备份一体机的备份数据定期恢复到测试服务器, 并检测备份数据的有效性; 其次, 当HIS、LIS、PACS服务器或阵列因硬件故障宕机后, 使用备用服务器临时充当生产服务器, 直到后者完全恢复正常。
为了快速、有效地应付核心业务数据库服务器的崩溃, 在最短的时间内恢复业务的运行, 要求定期进行灾备演练[5]。在新容灾备份系统上线一周后, 我们对HIS系统进行恢复测试:第一步, 断开生产服务器, 将操作系统恢复至虚拟机; 第二步, 恢复数据库软件; 第三步, 恢复Oracle数据库文件和病历文件。此次恢复数据量大约为110 G, 所用时间大约35 min, 为我院医疗系统所能容忍的宕机时间。
实践表明, 容灾备份改造方案解决了原有方案中备份数据存储不安全、备份恢复速度慢、容灾能力低的问题, 实现了全院备份数据的科学集中存储管理, 以最小的投资换取系统最大的安全。今后还将通过提高生产服务器的硬件配置, 充分利用备份一体机的CDP技术以达到更高的复原时间目标和复原点目标。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|