2023年9月,经中国信通院的细致评估,中移(苏州)软件技术有限公司(简称“移动云”)智维平台混沌工程平台通过YD/T 4646-2023《混沌工程平台分级能力要求》检验,达到混沌工程平台能力评估的先进级要求,这也意味着移动云在混沌工程领域达到业界领先水平。
1. 直面痛点,主动创新挖掘混沌工程需求
随着移动云规模和业务架构的复杂度升高,移动云现网未知隐患和风险加大,故障的不可预知问题进一步凸显。服务间的依赖错综复杂、业务调用请求链路长,产品变更交付速度加快等多维度因素,给移动云的稳定性带来巨大挑战。基于上述背景,移动云团队提出采用混沌工程创新技术以防范可预见和不可预见的风险,即通过主动引入故障来充分验证系统和应用的脆弱性,提前暴露系统风险项,力求防患于未然,从根本上提高系统和应用的稳定性。从而让移动云更好地适应复杂多变的运行环境,持续提供超大规模、超高稳定性的运行效能。
2. 根植业务,依托混沌搭建主动运维体系
平台面向移动云运维人员进行设计,深度挖掘业务使用需求,遵循简洁、易用、流畅、安全等设计原则进行产品构建。基于先进的微服务架构,采用由展示层、服务层、数据层和探针层组成的模块化的分层架构。

整个产品功能架构根据混沌工程的实施步骤,从系统级、空间级、融入DevOps三个层面展开设计。演练空间级主要包含资源管理、探针管理、演练场景编排、演练活动执行、演练过程防护、演练活动观测、演练结果报告几大部分功能。
系统级主要包含故障原子库管理与安全控制相关功能设计两大部分。
融入DevOps,指混沌工程平台不再是单独存在的工具,而是DevOps的一个环节、体现了一种高级的运维能力。提供持续的风险发掘、稳定性验收、稳定性指标抽取和度量的能力。
平台核心功能优势包括:
丰富的故障类型
移动云智维云混沌工程平台内置100+原子故障,能够覆盖从基础设施到业务应用各层面的各类故障场景,并支持用户自定义故障。丰富的原子故障类型,为多维场景演练、复杂场景演练编排提供了坚实的基础支撑。
灵活的演练编排
平台支持用户完全自定义编排演练对象、场景、方式,并且能够在场景中任意插入压力测试、稳态检测节点。演练场景编排直观可视,故障节点参数配置灵活,能够满足各类业务的演练场景编排需要。
长期的经验沉淀
移动云通过长期采集不同业务的故障场景,不断提炼符合业务实际的演练场景专家经验模版库。同时,通过开展红蓝对抗、混沌工程演练等实践活动,不断充实混沌工程平台的场景库,沉淀从故障演练、故障预案、故障治理的全链路解决方案。
全面的演练防护
混沌工程本身的“破坏特性”,难免会引起使用者的隐忧。为了最大程度的保护业务方生产环境安全,平台制定了“层层防护”策略。首先,平台通过演练空间隔离各类演练资产,保障各业务线演练的安全、独立。同时,平台通过精细的角色和权限设定,以及日志审计、演练计划审批功能,防范各类越权操作,保证空间内部演练的安全可控。在演练场景配置层面,平台不仅支持从节点到场景配置自动恢复故障策略,也支持配置监控阈值防护策略、演练时长防护策略等多维度防护,确保演练爆炸半径符合预期,切实可控。
与既有运维体系的有机结合
混沌平台通过对接移动云既有的CMDB、监控系统、容器平台等多个外部系统,将混沌平台与既有运维体系有机结合,深度融入移动云DevOps,使混沌平台不再是单一的故障演练工具,而成为DevOps的一个环节。使混沌与各个平台能力相辅相成,共同搭建了更先进高效、稳定坚实、用户易用的运维体系。

3. 实践检验,可视化度量平台应用效能
为了推广落地混沌平台,将混沌工程应用于实战,平台运营方举办了多次红蓝对抗、混沌工程演练大赛等各式活动,以赛代练、以战代练,提升产品可运维和人员运维能力。紧密结合实际生产故障,常态化开展混沌工程“全员,全场景,全过程”练兵工作,确保故障处理条线全员参与、历史故障全量演练,提升运维人员故障处理能力和应急响应能力。截至目前,平台累计实训故障注入500+人次,积累故障场景、知识库50+,覆盖98%故障处理人员。通过混沌工程精细化描绘运维人员画像,挖掘“头雁”人才,发挥传帮带学作用,引领运维团队能力成长。混沌工程可以评估系统的弹性和恢复能力,降低在架构方面的研发和测试人力投入。
经评估,落地混沌工程后,比照上一年用户有感故障数减少34%;故障提前发现率提升63%;MTTR降低33%。持续提升云平台稳定性:推动建设云平台多活策略,抵抗机房瘫痪等大面积故障。
4. 勇于探索,持续保持混沌平台的先进性
移动云混沌工程团队将保持研发的热忱,从产品功能层面和应用场景两个方向持续创新。在产品维度,积极探索AI在混沌工程中应用的可行性,探究演练场景及监控自动化编排、演练智能化评分、演练结果及改进建议关联生成等多维度的功能迭代方向。在应用维度,开展产品的创新应用场景挖掘,不断积累混沌工程实战应用场景,沉淀混沌工程在企业信创迁移、跨云迁移等场景中的演练方案,在实践中历练打磨产品,让产品更贴合用户需求、更符合用户场景。
未来,移动云将继续积极推广混沌工程理念,力争为移动云及外部客户持续提供具有专业性、先进性、实操性的一站式企业级混沌工程解决方案,为混沌工程领域的发展和推广贡献力量。
附:企业介绍
中移(苏州)软件技术有限公司(简称“移动云”)隶属于中国移动通信集团公司,是中国移动通信集团公司的一级子公司,其职责定位为云计算、大数据、IT支撑系统前沿技术的研发和运营支撑。
移动云是中国移动基于自主研发的先进技术打造的云品牌,具备央企保障、安全智慧、算网一体、属地服务等多重优势,致力于为客户提供领先的云计算、大数据、人工智能等产品和服务。
原标题:《移动云混沌平台 获评中国信通院能力评估先进级》
