业务连续性+·业务连续性问与答·Q12(上)
问题:如何描述业务连续性能力?它由哪些构成要素?如何规划、确定目标能力? 回答:业务连续性包括9方面的能力(及能力框架); 基于能力的规划(Capabilities-Based Planning)过程; 业务连续性核心能力参考框架(暂略)
相关问题包括: “我们是一家金融机构,行业里发生过有机构投资巨大建立了灾备数据中心,但在生产系统真正发生故障时,灾备中心却未能有效接管生产系统,为什么会这样?” “从去年开始贸易战对高科技企业的供应链形成了巨大压力,华为称已用10年时间建立了业务连续性管理体系,业务连续性管理体系不是为了应对中断吗?它现在业务并未中断,那业务连续性管理体系怎么起作用呢?” ……
1.业务连续性包括9方面的能力(及能力框架)
业务连续性使命领域
关于业务连续性使命领域(或者阶段)的划分,在学术界和实务中并没有一个统一的标准。综合国内外应急、连续性和危机管理方面的研究与实践经验,结合我国实际情况,我将业务连续性管理全过程的任务划分为9个使命领域:预防、保护与减灾、准备、监测、预警与警报、应急响应、危机沟通、业务恢复和事后重建。预防是为了避免运营中断事件发生所开展的各种活动;保护与减灾是为了保护关键对象(如生命财产、公共秩序、公共利益如环境、业务要素和品牌声誉)、减轻运营中断事件的损失而采取的各种活动;监测是对事件的特征参数进行观测以了解事态的变化( “全天候全方位态势感知”?! );预警与警报是在监测的基础上,为尽可能阻止事件恶化或阻止造成更大损失而采取的预警与警报;应急响应是在事件即将发生前、发生期间或紧随发生后,为挽救生命、减少财务和环境破坏等而采取的各种活动;危机沟通是在运营中断事件应对过程中为保护组织声誉和品牌而采取的与关键相关方的各种沟通活动;业务恢复是在运营中断事件发生时在可接受的时间内将业务恢复到预定水平而采取的各种活动;事后重建是在事后将业务恢复正常或更好水平而采取的各种活动;准备是为保障达成业务连续性目标而对业务连续性能力进行管理而采取的各种活动。
业务连续性使命领域
这些使命领域在时间上并不是完全按顺序排列,而是存在一定的重叠关系。例如,在事件发生前的预防、预警与警报就是重叠的;应急响应、危机沟通、业务恢复完全可能同时进行;而保护与减灾、监测、准备使命领域贯穿于业务连续性管理工作的全过程。
• 预防 预防的目标是要降低突发事件发生的可能性,即尽可能避免突发事件的发生,这样就不必启动应急响应和业务恢复等行动。预防涉及到方方面面的工作,如建筑工程、危险品管理、火灾消防、工作场所安全与健康、网络安全等等。预防领域的准备规划应该使用基于风险的方法,一个组织对不同事件风险的容忍程度决定了它所选择和实施的预防策略。要确定组织所在的工作场所需要预防哪些突发事件,必须首先对其面临的危险源和威胁及其相关风险有一个全面的了解。为此,需要识别危险源、开展风险分析,以确定该工作场所不可接受的风险源有哪些?该风险源引发的突发事件的可能性及事件后果如何?有什么措施可以减低事件的可能性或减轻事件的后果?然后,根据风险评估的情况选择物理措施或管理措施。
• 保护与减灾 保护是对保护对象的保护与增强活动,减灾是降低保护对象脆弱性的活动,两者的最终效果都是保护对象韧性的提升。由于几乎所有突发事件造成的损失和破坏都与脆弱性相关,如信息网络系统由于存在容易受到攻击的关键节点而存在高脆弱性,因此,保护与减灾策略可以适用于几乎所有突发事件。保护与减灾与其他使命领域的区别在于它寻找降低风险的长期解决方案,而不是放任后果的发生,或者仅为事件发生后对这些后果的响应和恢复进行准备。实施保护与减灾项目和活动需要组织内外方方面面人员的参与。无论是从风险管理角度、还是业务连续性管理角度看,保护和减灾都是其中的一个重要组成部分,在开展准备规划时必须将其纳入总体框架内进行考虑。
• 准备 准备在业务连续性管理的理论和实践中具有十分重要的地位。因为准备既是一种状态,更是一个过程。作为状态,它表明已具备充分的能力完成业务连续性各使命领域工作任务的能力;作为过程,它包括规划、组织、装备、培训、演练、评估和更新等持续改进的能力建设过程。准备包括预防、保护与减灾、监测、预警与警报、应急响应、危机沟通、业务恢复和事后重建各个环节的准备,其目的是通过持续改进的准备过程建立和保持完成各项使命所需要的能力。也就是说,业务连续性准备是对“业务连续性能力”进行管理所采取的各种活动。准备作为独立于其它使命领域的一个基础性使命领域,拥有自己独有的任务和能力目标 (事实上,常用业务连续性管理体系涉及到的活动全部是准备活动) 。
• 监测 监测是对所有可能发展成突发事件和运营中断事件的威胁和危险源进行人工或自动监测,以便进行预警和警报并采取措施。监测是对可能引发突发事件和运营中断事件的威胁和危险源的特征参数进行人工观测或自动监测,包括对各种不同类别突发事件和中断事件的独立监测。在事发前,需要了解事态的发展趋势;在事发后,需要了解事件的演化路径、进行态势研判,因此,监测使命领域“全天候全方位”的。
• 预警与警报 预警是指在已经发现可能引发突发事件或运营中断事件的某些征兆,或者事态发展到事先设定的预警临界点时,立即发布相关信息以便进行防范措施。警报是指在发现突发事件或运营中断已经发生时,立即发布相关信息以便采取行动进行响应、恢复等。相关防范措施和行动可能包括人为的行动,如停止操作、人员疏散、紧急避险、启用提前备货或调整设计生产方案 (应对供应链中断)、 灭火、启动灾备中心运作,也可能是系统的自动操作,如列车和危化装置的紧急停车、核电站反应堆自动停止运转、高可用系统中备机接管主机等。由于事态的发展通常有一定的过程,通常根据突发事件和运营中断事件发生的紧急程度、发展态势和可能造成的影响,将即将发生的突发事件和运营中断事件划分为不同的预警级别,分别采取不同的应急措施。目前,一般将预警划分为四级:Ⅰ级(特别严重)、Ⅱ级(严重)、Ⅲ级(较重)、Ⅳ级(一般),分别用红色、橙色、黄色和蓝色标示。不同类别的事件预警指标和标准各不相同。组织也可以制定自己的预警级别并明确相应的指标和标准。预警和警报使命领域的任务也包括对不同类别突发事件和中断事件的预警和警报,以及综合各种来源的信息并考虑不同事件之间的相互影响之后的综合预警和警报。
• 应急响应 应急响应是指在突发事件即将发生前、发生期间或紧随发生后,为抢救与保护生命、保护财产和环境、满足人类基本需要、清除现场的危害因素而立即采取的行动,还包括对事件响应行动的管理与协调活动。突发事件基本都是发生在某一个或一些特定的地理位置,对发生地的一些个体或社区造成生命、财产和环境的损害或影响,因此所在地的地方基层政府总是事件的第一责任者,不同的规模和类型的组织在政府的指导下可能从事不同的工作和任务,但每个组织首先需要保护在组织工作场所工作人员的安全,因此,及时报告、先期处置、人员疏散/撤离、自救互救是组织应急响应工作必备任务。
• 危机沟通 危机沟通是指在发生突发事件和运营中断事件时,组织需要为保护好自己的声誉和品牌主动与关键相关方进行及时、充分的沟通。组织在突发事件和运营中断事件的应对过程中、日常运营过程中,由于种种原因,都可能“突然遭遇”声誉危机,其实引发相关声誉危机的事件早已存在,有可能未得到及时、有效地处理,在特定的情势下“爆发”。由于声誉风险的风险责任人(risk owner)在组织领导层 (“一把手”负责) ,因此,组织领导可能会觉得是一下子被“怼”到了一线。危机沟通使命领域涉及到的工作和任务是每个现代组织都必须处理好的 (也是刚进入互联网时代的多数组织并不具备,亟需补上的一课) 。
• 业务恢复 业务恢复是指在发生运营中断事件后,帮助组织在可接受时间内将业务恢复到预定水平而采取的各种活动。为目标客户持续提供产品和服务是每个组织存在的基础,也是组织的使命所决定的。因此,对于任何一个组织(无论是企业、学校、医院、社区、政府机构等等)而言,业务恢复使命领域的任务是组织所必须完成的。根据业务中断时间长短对组织使命的影响程度,组织应为达成使命最重要的活动设定连续性目标 (MTBD、MBCO、RTO/RPO等) ,并组织、协调人员、装备、物资等达成该目标。业务恢复时间目标可能从数小时到数周或数月。如果有备份营业场地,应急恢复、危机沟通、业务恢复等活动从时间上完全可能是重叠的。
• 事后重建 事后重建是指在发生突发事件和运营中断时间后,将业务恢复正常或更好水平而采取的各种活动。业务恢复结束和事后重建开始的时间点并不容易确定。两者之间也可能存在一定的重叠。重大灾难性事件的事件重建行动通常开始于事件发生后的数小时至数天,而其持续时间可能从数天到数月甚至数年。事后重建过程中需要平衡好短期重返工作的急迫要求和长期的降低脆弱性的目标的关系。事后重建应提供更安全、具有更高发展水平的机会。
业务连续性能力框架
我们在本系列文章的Q6讨论过,中文的“能力”一词,在英文中有许多近义词,但业务连续性对应的能力是 capability ,这是一种结构化的、体系性的综合能力。能力 (capability) 是一个抽象的概念,简明剑桥字典给出的capability定义是:“做某事的力量或本领” (the power or ability to do something) 。具体对组织来说,每个组织都拥有一系列的能力,这些能力可以多种方式组合起来实现不同的成果(提供产品和服务/达成组织使命)。每项能力有多项构成要素组成,由于这些构成要素一直处于变动中,组织能力都是易逝的 (“诸行无常”) ,因此,能力需要得到有效的管理和维护才能够保障使用。典型的能力生命周期包括规划、建设(采办)、交付、使用和淘汰等阶段。在一些国防和军事组织中,能力管理已经是一个高度发达的管理学科,它的概念、原则和规范正在其它领域(如应急管理)得到应用。
在《ISO/DIS 22301 Security and resilience – Business continuity management systems – Requirements》(也就是新版22301草案)中给出的业务连续性的定义是: 组织在可接受的时间内以与中断相关的预定生产能力连续交付产品和服务的能力 (capability of an organization to continue delivery of products and services within acceptable time frames at predefined capacity relating to a disruption), 而在《ISO 22301:2012 Societal security – Business continuity management systems – Requirements》中给出的定义是:组织在中断事件发生后以预定的可接受水平连续交付产品和服务的能力 (capability of the organization to continue delivery of products and services at acceptable predefined levels following disruptive incident) 。对比这两个定义,有变化但基本保持一致,都强调了“组织”、“持续交付产品和服务”、“中断”,“可接受”、“预定生产能力/水平”,也就是说,业务连续性是组织拥有的一种能力,这种能力可以让组织在“中断时”“持续交付产品和服务”,并且是在“可接受的时间内”、“以预定的生产能力/水平”。
业务连续性能力由一系列特定的能力组成,其中每项能力都是用于实现一项或多项特定的功能,因此,由业务连续性使命领域中涉及到的任务可以推导出一些需要的业务连续性能力,也就是说,我们可以用准备、预防、保护与减灾、监测、预警与警报、应急响应、危机沟通、业务恢复和事后重建这9个方面将具体的业务连续性能力分类,形成业务连续性能力框架的一级结构。 业务连续性能力框架 预防能力 保护与减灾能力 监测能力 预警与警报能力 应急响应能力 危机沟通能力 业务恢复能力 事后重建能力 准备能力 业务连续性能力框架
由于每个组织的环境和业务差异较大,业务连续性能力框架的二、三级结构差异更大,较完整的业务连续性能力参考框架暂略。
业务连续性能力构成要素
业务连续性能力通常是指指由人(团队)的能力 (ability或competence) 和系统与装备能力 (capacity) 相结合而形成的能力 (capability) ,是在特定条件下以一定的绩效标准完成一项或多项任务的综合实力。能力由经过适当计划、组织、装备、培训和演练的可达成期望结果的人员的合理组合来提供。
业务连续性能力的构成要素包括人员、技术、流程和组织要素四大类 (可参考我们在Q6提过的BMIS模型) 。 • 人员是指为完成分派的使用与任务所需的符合相关资格和资质证书标准的员工和外包人员(供应商人员)全体,具体包括各级管理人员、业务人员以及连续性相关的专业人员。 • 技术是指为完成分派的使命和任务所需的符合相关标准的装备、物资和设施等。技术的配备是为了提高人的能力,以突破人的物理条件限制,包括主要设备、工具和系统;各类消耗性物质资料,如满足人员需要的生活资料,抢险救灾物资等;设施主要是指场地及关联的基础设施、公用服务等。 • 流程是指为完成分派的使命和任务而编制和使用的各种文件化的管理流程,如风险评估,业务影响分析,相关计划(预案)、程序、互助协议、政策、战略等。 • 组织是指为完成分派的使命和任务而进行的组织领导、培训、演练和评估活动。规划是指为完成分派的使命与任务而开展的了解组织环境及规划类活动;组织领导是指为完成分派的使命和任务,建立管理小组、搭建完整的组织结构,并在组织的各个层级发挥领导作用。培训是指为完成分派的使命和任务对个人和组织团体进行意识教育和训练;演练和评估是指为完成分派的使命和任务,依据取得成功必须达到的标准,开展演练、自我评估、同行评估、外部评估、符合性监测,以及在实际事件中运用、检验、评估和改进能力的活动。
由业务连续性能力的人员、技术、流程和组织要素的不同组合,构成各种不同类别的应急能力单元。例如,对银行业而言,“启用同城灾备系统接管核心生产系统能力”是业务恢复任务中的一种重要能力,构成这种能力的各个能力要素的描述 (因每家银行的系统及采用的灾备技术不同有较大差异,仅示意) 如下表所示:
能力名称 启用同城灾备系统接管核心生产系统能力 能力描述 在核心生产系统不能正常运行时、启用同城灾备系统接管相关核心生产系统的能力 期望结果 在(技术)RTO时间内启用同城灾备系统,核心生产系统处理能力不低于预定的MBCO 主要活动 启用灾备系统,数据追补作业,业务系统运行验证 能力 构成 要素 人员 同城灾备中心业务系统运维人员 同城灾备中心数据库管理人员 同城灾备中心网络管理人员 同城灾备中心存储管理人员 同城灾备中心系统管理人员 同城灾备中心安全管理人员 同城灾备中心基础设施运维人员 装备 (及数据) 同城灾备中心核心系统 同城灾备中心备用数据 物资 同城灾备中心运维人员食宿、办公及交通支持 设施 同城灾备中心基础设施及网络通信服务 计划 (预案、协议、程序) 灾备启用接管预案 数据追补作业预案 业务系统运行证验证预案 关键供应商应急支持协议 组织领导 信息科技部领导及数据中心管理人员,经演练验证过的组织指挥架构 培训 业务系统运维管理培训 网络管理培训 存储管理培训 系统管理培训 安全管理培训 基础设施运维管理培训 演练与评估 启用同城灾备接管核心生产系统演练 效果评估和预案及程序的改进
问与答: 问:“我们是一家金融机构,行业里发生过有机构投资巨大建立了灾备数据中心,但在生产系统真正发生故障时,灾备中心却未能有效接管生产系统,为什么会这样?” 答:在业务连续性能力的构成要素中包括人员、装备、物质、设施、计划、组织领导、培训、演练和评估,在一定程度上,人员、装备、物质、设施和计划都是可以单独进行建设,并在特定时间是“静态的存在”;而组织领导、培训、演练和评估是将上述要素“集成”并形成真正“能力”(capability)的活动。投资巨大建设了灾备数据中心,投资主要体现在装备和计划要素上,其它构成要素如人员、组织领导、培训、演练与评估是否达到要求不得而知。具体到特定灾备中心未能有效接管生产系统,需要认真分析评估其相关能力的各项构成要素是否达到要求。(据我了解有金融机构灾备中心事故发生在批量增加人员及内部结构刚刚调整后不久,除却技术因素外,新增及替换人员是否具备完成特定任务所必要的能力也可能是造成恢复时间过长的原因之一。)
问:“从去年开始贸易战对高科技企业的供应链形成了巨大压力,华为称已用10年建立了业务连续性管理体系,业务连续性管理体系不是为了应对中断吗?它现在业务并未中断,那业务连续性管理体系怎么起作用呢?” 答:业务连续性能力包括预防、保护与减灾、监测、预警与警报、应急响应、危机沟通、业务恢复、事后重建和准备9方面的能力,华为在应对贸易战引起的供应链问题时至少用到了保护与减灾、监测、预警与警报、危机沟通等几方面的能力,这是业务连续性准备活动(管理体系)发挥作用的重要体现。事实上,对供应链相关的运营中断风险,通常不会让允许中断发生,监测、预警、保护与减灾这几项能力更为重要;而在信息科技相关的运营中断风险中,预防、保护与减灾、监测、预警、业务恢复这些能力都很重要,因为既要预防此类中断发生,但假如无法预防(如外部断电),就要做好业务恢复。
……(未完待续)
============= 精采回顾 ============
0 . 业务连 续性问与答Q 0: 大纲 Ver2.0 业务连续性问与答(大纲 ) Ver1.0,已废弃
第一部分业务连续性是什么? 1. 业务连续性问与答Q 1 :不是有应急管理了,怎么又出来个业务连续性管理?它们是一回事吗? 2. 业务连续性问与答Q 2: 对企业(组织)而言,我们已有信息安全管理、IT灾备、IT服务管理、HSE、企业应急管理以及舆情危机管理、全面风险管理等诸多的安全与风险管理手段,它们和BCM是什么关系? 3. 业务连续性问与答Q 3 :业务连续性管理从哪儿来,又将到哪儿去?(上 ) 业务连续性问与答Q 3 :业务连续性管理从哪儿来,又将到哪儿去?(下 )
第二部分业务连续性为什么? 4. 业务连续性问与答Q 4:业务连续性管理有什么价值? 我们 为什么要 做BCM,为什么有人不愿意做BCM?
第三部分业务连续性怎么管? 一般性讨论 5. 业务连续性问与答Q 5 :有哪些主要的业务连续性管理知识体系?(上 ) 业务连续性问与答Q 5 :有哪些主要的业务连续性管理知识体系?(下 ) 6. 业务连续性问与答Q 6: 业务连续性是什么?业务连续性管理和业务连续性管理体系又是什么? (上) 业务连续性问与答Q 6: 业务连续性是什么?业务连续性管理和业务连续性管理体系又是什么? ( 下 ) 7. 业务连续性问与答Q 7: 当我们谈安全时,我们谈些什么?当我们 谈风险 时,我们谈些什么?当我们谈韧性时,我们谈些什么? 8. 业务连续性问与 答Q 9: 对业务连续性的管理涉及哪些关键活动?如何对其进行组织?(上 ) 业务连续性问与 答Q 9: 对业务连续性的管理涉及哪些关键活动?如何对其进行组织?( 中 ) 业务连续性问与 答Q 9: 对业务连续性的管理涉及哪些关键活动?如何对其进行组织?( 下 )
项目集管理和领导力 9. 业务连续性问与答Q 8 :怎么才能说服领导支持业务连续性管理?(上 ) 业务连续性问与答Q 8 :怎么才能说服领导支持业务连续性管理?(下 )
业务连 续性问与答Q 10:领导已决定 启动/ 加强 / 改进业务连续性工作了,我该怎么着手推动呢? (组织结构与人事篇 )( 上 ) 业务连 续性问与答Q 10:领导已决定 启动/ 加强 / 改进业务连续性工作了,我该怎么着手推动呢? (组织结构与人事篇 )( 下 )
业务连续性问与答Q 11 :领导已决定启动/加强/改进业务连续性工作了,我该怎么着手推动呢?(项目集管理活动篇 )( 上 ) 业务连续性问与答Q 11 :领导已决定启动/加强/改进业务连续性工作了,我该怎么着手推动呢?(项目集管理活动篇 )( 下 ) 业务连续性问与答Q 11 : 领导 让我负责单位的业务连续性工作,我想认真了解一下业务连续性经理的工作?(附 )
“ 一个好问题,胜过一百个好答案! ”欢迎你带着问题来,当然,也欢迎你给出更好的答案!(如果你发来的问与答入选均有小礼品赠送)。 由于本公众号注册时正处于腾讯政策调整,公众号未能开通留言功能,希望参与“业务连续性问与答”讨论的朋友,可用微信扫描以下二维码加入知识星球进行留言或讨论。
原文发表于公众号”业务连续性+” | 原文链接