根据佳能,魏文王曾经向一位著名的医生扁鹊咨询:“你们三个兄弟都擅长医学。谁是最好的?”扁鹊:“大哥是最好的,二哥是最差的,我是三个中最差的。”王文又问,“那你为什么最出名?”扁鹊回答说:“在哥哥生病之前,他的名声无法传播,因为普通人不知道他能提前根除病因。当钟兄患病初期接受治疗时,普通人认为他只能治疗小病,所以他的名声只能传遍全村。当我处于病危状态时,大多数人看到我在经络和其他重大手术中扎针和出血。他们认为我的医术更好,所以我的名声传遍了全国。”
这个关于医疗技能和拯救生命的主题包含了一种发人深省的数据中心智能操作和维护方法。
一个
智能数据中心的新使命:新应用带来新挑战
随着5G、云计算、大数据、物联网和智慧城市的快速发展,以服务为基础设施的数据中心规模越来越大,机柜和服务器数量进一步增加,数据中心的动态环系统和运行监控系统越来越复杂。如此大量的信息系统必然会增加日常操作和维护的难度。因此,实现数据中心智能化、简化的运维管理是未来数据中心更加迫切的需求。
在华为以“智能DC,共创未来”为主题举办的第五届智能数据中心基础设施技术峰会上,华为数据中心能源总裁何波从数据中心管理的维度,结合华为多年的数据中心运维管理经验,与我们分享了数据中心的智能运维实践。传统数据中心通常依赖人力和经验来识别风险,这是低效的。华为DCIM+集成了物联网、云平台、人工智能等算法。就像天气预报提前预报可能的风暴一样,它可以提前知道潜在的风险,并将传统的被动故障视为主动风险防范。在数据中心故障报警数据上,智能筛选需要关键的处理报警信息,与人工筛选相比,减少了80%的时间,从而大大节省了运维工程师的故障筛选时间。同时,对故障部件进行主动隔离,提醒投保过多的部件提前购买,从而降低50%的报警和100%的重大事故风险。华为DCIM+在智能识别风险、提高数据中心运营和维护效率方面发挥着重要作用。
华为数据中心能源总裁何波
二
DCIM+,开启数据中心运营和维护的智能化时代
如果我们把扁鹊对三兄弟医疗技能的评价作为事前预防,事中预防,事后控制和解决。那么智能运维不仅需要扁鹊,还需要扁鹊的大、中兄弟,需要灵活运用三兄弟的能力来保证数据中心的智能运维。
DCIM是近年来逐渐被认可和接受的数据中心基础设施管理工具,它将在数据中心生命周期管理、运行维护和节能方面发挥一定的作用。然而,如果要实现智能操作和维护,传统的DCIM是无法实现的。
华为数据中心智能管理系统(DCIM+)为数据中心基础设施提供了高度可靠和完善的运营计划。它集成了3D和人工智能等先进技术,提供可视化管理、人工智能能效管理、数字化操作和智能操作等。提高数据中心的管理效率并最大化数据中心的价值。首先,确保数据中心流程合规性的可靠性;其次,加强流程管理,协助业务分析以提高数据中心收入,优化能效以节约运营成本。最后,面对问题,彻底解决问题。把握好前、中、后三个节奏点,在不同阶段采用不同的控制方法,将数据中心的风险控制在预定范围内,确保数据中心的安全运行。DCIM+,支持与安全、消防、基站、移动环、电源、人工智能等系统的生态集成。统一信息,统一管理,有效避免传统管理体制。
首先,智能巡检操作和维护提高了效率和可靠性
传统的检查任务要求操作和维护人员每天对数据中心进行定期检查,每天重复无聊的抄表数百或数千次,并时刻保持警惕以发现隐患。在数据中心的运营和维护工作中,人是最关键的因素。摆在我们面前的问题是如何使操作和维护人员免于重复枯燥的抄表工作。
华为希望通过DCIM+云计算、大数据和人工智能,并通过智能手段,逐步减少人工巡检等日常重复性工作,超越人的操作水平,提高数据中心的运营和维护效率,成为数据中心运营和投资决策的重要支持系统。
华为DCIM+通过为设备和管理系统创建集成的智能解决方案,实现了从基础管理到智能操作和维护的飞跃。通过DCIM+综合服务平台进行检查时,检查过程中发现的隐患可以通过平台的故障处理工具进行修复。如果需要现场处理,服务平台将触发问题升级,并向现场维护人员发送短信或电子邮件进行处理。收到平台触发的报警信息或平台触发的问题升级信息后,相应的维护人员可以远程登录处理报警,诊断系统中发生的错误等。以便在系统故障后尽快恢复错误并减少损失。
其次,基于人工智能的冷却能效优化技术有助于数据中心精益运营,为消除无用能耗提供了可能
华为廊坊数据中心采用iCooling能效优化技术,PUE全年从1.42降至1.30以下,每年节省电费近1000万元,实现了从“冷却”到“智能冷却”的转变,有效提高了效益,为未来数据中心降低能耗奠定了新的方向。将来,它将被复制到更多的数据中心和场景中,例如间接蒸发冷却和冷却。面对中小边缘的DC,它不一定是一个大的冷冻水系统,它可以是一个风冷直接空气系统,或者它可以智能地由人工智能冷却。这方面肯定有很大的潜力。
最后,智能识别风险类型,及时恰当地处置关键风险
除了通过智能巡检提高运行和维护效率,使用有限的电力和制冷系统在有限的空范围内最大限度地利用计算资源,数据中心经理还必须不断应对他们面临的风险。这意味着需要识别和管理各种来源的风险。
传统数据中心通常依赖人力和经验来识别风险,这是低效的。华为DCIM+集成了物联网、云平台、人工智能等算法。就像天气预报提前预报可能的风暴一样,它可以提前知道潜在的风险,并将传统的被动故障视为主动风险防范。在数据中心故障报警数据上,智能筛选需要关键的处理报警信息,与人工筛选相比,减少了80%的时间,从而大大节省了运维工程师的故障筛选时间。同时,对故障部件进行主动隔离,提醒投保过多的部件提前购买,从而降低50%的报警和100%的重大事故风险。华为DCIM+在智能识别风险、提高数据中心运营和维护效率方面发挥着重要作用。
三
面向可见的未来:继续克服困难,勇往直前
数字化、网络化和智能化使得数据中心市场的演进和迭代“迫在眉睫”,而华为的网络能量通过技术创新,真正为数据中心市场未来的可持续发展贡献了更高的价值。
数据显示,近年来,数据中心的能源性能稳步增长,华为模块化不间断电源(Huawei Modular UPS)连续4年在中国取得第一个市场份额,微模块连续4年在中国取得第一个市场份额。
华为数据中心能源总裁何波表示:“华为在网络能源领域不断突破和增长的关键不仅在于外部工业环境带来的机遇,也在于华为的定位和创新。华为每年将10%-15%的销售收入用于研发,并继续创新。然而,华为的创新并不是盲目的。超过3000名网络能源研发人员围绕客户价值进行创新,以帮助客户解决问题。”
回顾过去,华为一路走过来了!展望未来,华为将在智能化的道路上迈出更加坚实的步伐,继续勇往直前,向患者不同阶段的扁鹊兄弟学习,及时处理和防止轻微恶化,尽最大努力消除胚胎期的故障,确保数据中心以最快的速度、最低的故障率、最低的维护成本、最先进的维护技术,与生态合作伙伴、客户、高校、 研究机构和其他社会力量,共同协助智能维护的发展,迎接未来数字化时代的潮流。