作为我国金融服务主力军和科技领先大行,中国工商银行坚决贯彻落实党中央关于金融工作的决策部署,围绕为人民群众提供高效、便捷、优质金融服务的愿景,满足银行业务日益呈现的线上化、多样化、场景化发展需求,以实现核心银行系统安全可控、高性能、易扩展、松耦合为建设目标,自2015年启动分布式架构转型,构建了以“云计算+分布式”为核心、灵活兼容适配国内外主流信息技术产品的技术新基座,率先建成全球银行业规模最大、技术能力最强、业务场景全覆盖的金融云平台,先后完成了10亿规模的借记卡系统、全行客户信息系统等重点应用系统转型,构建了同业规模最大的分布式信息系统,实现大型银行主机系统转型的重大历史性突破。分布式信息系统投产后,在客户服务、产品创新、业务运营等方面取得了良好的业务效果和社会反响。为了更好地助力“数字工行”创新发展,夯实信息系统服务业务实体的根基,工商银行以智能化、开放化为目标,基于业界主流的开源技术、自主研发的企业级云平台和分布式技术体系,以数字化转型为契机,积极探索分布式架构下智能运维管理的新模式。
数字经济时代,面对业务需求快速迭代、敏捷开发不断普及、技术架构持续创新、运维体量和复杂度大幅增加等新形势新挑战,银行业传统的集中式系统运维管理模式已较难为核心信息系统的业务连续性提供有效保障。工商银行在全行IT架构转型过程中,牢固树立“安全生产第一”的指导思想尊龙人生就是博d88,统筹发展与安全,主动迎接分布式架构下运维管理面临的转型变局。
一是架构迭代发展,传统运维模式难以为继庞大运维体量。面对分布式架构下的海量运维资源,运维人员需要维护的设备体量发生几何式扩张,需要处理分析的运维数据量也出现爆发式增长,传统的运维管理模式已明显脱节于分布式系统的迅猛发展,需要重塑运维管理模式,提升运维管理质量和管理效率。
二是加速引入新技术,传统运维能力难以满足运维目标要求。分布式技术和微服务改造,一方面使厚重的集中式系统被分层解耦,另一方面也使系统和应用间的互访关系更加复杂,传统运维能力不具备组件服务化能力,缺乏数据交互共享,难以支撑分布式运维场景。需要重点在全链路监控定位能力、快速应急处置能力、统一的变更风险防御能力上加大建设力度。
三是业务敏捷感知,业务连续性管理要求迈上新台阶。支付方式的改变,银行客户群体的不间断服务要求,对银行业核心业务系统的业务连续性提出了更高要求。传统运维模式的服务对象主体是应用,无法延展到业务视角,难以快速响应客户诉求、满足监管要求。需要借鉴SRE理念,建立以业务为视角的运维保障能力。
为应对分布式架构转型的挑战,工商银行坚持以业务为核心,以数据为驱动,重塑运维保障服务体系,通过加强运维数据治理、打造企业级一站式运维工具体系、推进基础设施和业务运维场景解耦、强化基础设施服务能力等措施夯实运维转型地基,为后续智能化运维能力建设奠定基础。
一是由面向应用到面向业务,重新定义运维保障视角。强化运维服务理念,以业务为视角,将传统的面向单个系统或单个应用的运维模式,转变为贯穿业务条线上关联应用和系统的统一运维模式,尊龙人生就是博d88提升业务运营感知能力。通过梳理业务链路关系,理顺端到端应用的前后调用关系,明确以业务为维度的关联应用清单,开展统一运维管理,包括建立业务级全景监控视图(如图1所示),开展变更交叉影响评估,以业务条线制定技术架构视图,制定统一应急策略等。同时,设立以业务为视角的评价回顾体系,以“1分钟故障发现+5分钟问题定位+10分钟应急止血”为目标,建立以业务场景为维度的监控指标、可用率指标、故障定位时效、故障恢复时效等核心管理指标,对业务真实运维能力和应用版本质量进行量化评价。目前,工商银行已在快捷支付、纪念币预约、理财投资等敏感业务场景上建立了上述以业务为视角的新保障模式,正逐步推广至全行所有应用和业务板块。
二是提升运维数据质量和支撑能力,构筑运维转型引擎。运维数据作为最重要的数据资产,是支撑日常运维管理、流程优化、运维管理效能提升的重要基础,也是实现数字化转型的重中之重。工商银行近年来建立了统一标准的运维数据集中采集和沉淀体系,利用大数据技术建设了运维数据中台(如图2所示),并紧跟业界前沿发展技术,不断丰富技术平台的支撑能力,实现了海量数据的实时或准实时处理,采集能力已达到百万级TPS,日均处理数据量超过10T;致力于提升运维数据质量,通过建立制度规范、组织流程和技术平台等保障机制,从数据资产目录、数据入池策略、数据主题应用、数据质量评估、数据安全管控、数据资产管理等六个领域深化治理,以数据共享、数据准确、数据可知、数据易用为目标,对运维数据的全生命周期过程进行了全方位管理;以业务场景为驱动,持续演进平台功能,由运维人员组建数据分析师专项团队,基于运维场景实现场景合作共建,在推进过程中,孵化一批、投产一批,充分推行跨专业的联动机制,沉淀成功案例的成熟模型,形成企业级的专家模型知识库。
三是打造一体化运维工具体系,形成相互协作的工具链研发生态。分布式架构下,传统专业边界被逐步打破,各专业领域协同合作场景越来越多,对运维工具的体系化能力建设提出更高要求。工商银行加快构建布局合理的运维工具链体系,将各类工具建设思路由“大而全”转向“聚焦工具核心能力建设”,实现工具研发统一规划、协同推进。通过工具之间的开放共享,进一步集中运维数据,解决了跨工具支撑场景落地难、时间长的问题,同时减少重复建设,增强了运维工具建设的统筹把控能力。
四是实现基础设施与业务场景解耦,提供面向业务的服务化能力。工商银行自研适用于超大规模、多资源域、“一云多芯”技术栈的统一云服务平台,全覆盖云平台下计算、网络、存储等资源的监控定位、容量管理和服务编排等功能,实现了以云服务为对象的资源供应,从设备流程化向云服务化转变。在网络专业方面,通过高速转发总线、资源服务池等网络架构规划优化设计,优化了数据流路径,预先排除风险点,加固网络高可靠能力。结合网络服务自助化、完善网络产品运维支撑功能等措施的有效推进,实现了网络资源服务化和网络资源管理数字化能力建设,有效支撑网络资源的灵活调度和快速供应。
工商银行以服务业务为目标,以统一的运维服务和运维数据为基础,如图3所示,聚焦监控、应急、变更等主要运维领域,以故障可感知定位、应急可快速处置、变更风险可管控等核心运维目标为导向,开展场景化的智能运维探索和实践,取得了阶段性成果。
一是完善端到端业务级监控体系,提升故障根因定位能力。工商银行通过业务标签染色及海量链路数据聚合计算,建立了围绕业务场景的端到端实时监控报警能力,提供了故障影响范围及影响程度的可观测能力。基于业务运维板块全景图、业务标签场景分布图、业务交易实际调用链建立三层拓扑透视图,满足从全局到局部的业务链路分析需求,可实现对业务链路上下游应用节点运行状态的实时观测和健康度诊断。接入网络、系统、应用多种动态数据,构建跨专业条线的排障链路,通过对多种数据流的共性分析得出可能的故障隐患点,并通过指标分析引擎建设,实现与日志分析引擎、排障树工具联动,有效辅助运维人员定位问题根因。
二是建立变更管控体系,提升变更风险防御能力。为减少变更故障给业务带来的影响,工商银行建立了变更事前、事中、事后防御体系(如图4所示),基于智能化手段实现对变更风险的精准把控。事前,通过预设专家规则,构建风险防御规则库,对变更方案的关键要素进行智能模型匹配,实现变更合规性检查、高危命令或脚本的风险预警、变更方案合理性评估、关联变更交叉影响评估等事前防御检测能力;事中,通过实时采集变更日志数据、变更对象应用健康度指标等性能数据,关联日志异常数据分析和性能指标趋势异动监控,实现变更实施过程中的智能阻断;事后,加强对生产环境运行情况的自动巡检,为可能的生产事件根因定位提供变更关联评估报告,实现变更风险管控的闭环管理。
三是加强应急组织交互,提升应急处置效率。以加速应急响应、科学应急决策、精准应急处置为目标,持续扩大自动化应急覆盖场景,完善一键式应急处置工具,组织常态化的容灾应急切换演练,提高应急实战操作的执行效率;加强应急处置过程中的信息共享交互,建立多渠道的应急信息联动机制,将应急事中的组织、实施记录、处置效果进行汇聚集成,并支持事后回顾总结,形成较好的相互支撑和联动效果;利用海量历史故障信息进行模型训练,建立应急处置智能决策判断树,探索使用人工智能机器人为应急处置现场人员提供便捷的信息查询和决策辅助。
人才既是技术的载体,也是创新的根本。工商银行坚持贯彻“人才兴业”理念,持续加强数字基因渗透,不断优化组织架构,激发创新动能,打造高水平的数字化人才专业队伍。
一是优化数字人才配置,打造高水平的数字人才“蓄水池”。全面开展面向业务的智能化运维培训,促进在岗员工逐步完成由“运维”向“运营”的转型,加强专业间轮岗交流力度,不断推进架构型、复合型科技人才培养。加大创新人才引进,重点向与数字化转型、分布式架构发展密切相关的云平台、云网络、信息安全攻防、运维工具研发、创新技术研究等领域倾斜。
二是积极开展内部挖潜,激发主动创新活力。倡导员工将日常积累的丰富运维经验总结提炼出方,作为技术资产进行沉淀,对于部分优秀案例,鼓励员工以专利形式进行发表;引导员工在运维工具开发上投入更多精力,以工具化推进减少日常运维人力投入,进而释放更多开发资源,中心的开发人员占比逐年提升;激励员工勇于对转型过程中的重大课题、难题进行主动挑担攻关,通过“揭榜挂帅”、专项激励等形式,营造干事创业的良好文化氛围。
三是优化组织保障模式,加快与业务深度融合。借鉴SRE运维理念,以业务运维专业线虚拟团队的模式,推进系统、网络、设备等技术和生产管理人员,与前端业务的开发、测试团队相互融合,共同承担业务板块的运维保障工作。通过建立重要变更评审、投产前联合推演、问题导向联合治理、重要板块运维情况定期巡检、监控应急能力共建等措施,加强业务发展保障力度。
近年来,工商银行聚焦分布式架构下的运维难点和痛点,以运维数据采集分析为基石、以自动化运维为手段、以智能化运维为蓝图,坚持精细化运维管理目标,建立分布式架构运维管理体系,确保了核心系统整体运行稳定,连续多年成功保障了春节红包、“双11”电商促销、纪念币预约等业务高峰活动。
未来,智能运维的探索和实践道阻且长、任重道远。工商银行将继续以数字化转型为引领改革创新的总抓手,凝心聚力,砥砺前行,探索建立更加完善的智能运维管理体系,加快建设高水平“数字工行”,为行业间智能运维生态建设添砖加瓦,实现共生共赢。