在全球数字化浪潮中,网络的稳定性和安全性已成为社会经济运行的基石。然而,近期出现的一系列宕机事件,如腾讯云、ChatGPT以及阿里云的故障,再次敲响了警钟,提醒我们即便是在科技高度发达的今天,系统可靠性依然是行业亟待解决的重大课题。
在这一背景下,SRE(网站可靠性工程)作为确保在线服务连续性和响应性的关键学科,正迅速成为全球科技行业的焦点。
近日,北京鸿雪科技董事长兼CEO郑乃东接受了中国电子报采访,就数字经济飞速发展的时代背景下,企业如何提升系统可靠性、增强运维效率,以及SRE人才培养等问题进行了深入探讨。
(以下为文章正文)
AI加剧网络可靠性风险——访鸿雪科技董事长兼CEO郑乃东
近期,全球宕机事件频发,引发了用户和业内人士对网络稳定性与安全性的担忧。近日,鸿雪科技董事长兼CEO郑乃东在接受《中国电子报》记者独家专访时表示,随着大量的传统应用变成了互联网应用,且已深入到工作和生活场景中,宕机事件带来的影响越来越大。推动SRE(网站可靠性工程)是提高可靠性、避免各种宕机的重要路径。
1、宕机事件频发加剧系统可靠性担忧
4月8日,“腾讯云崩了”冲上热搜。大量网友反馈,称腾讯云出现服务故障,接口响应报错、网页显示504错误,范围覆盖全国各地。6月4日,ChatGPT遭遇近8小时的大规模宕机,包括其网站和应用程序在内都无法访问,全球数百万用户受到影响。7月2日,阿里云发生宕机事件,虽说从发现故障到解决用时31分钟,从发现故障到影响恢复用时38分钟,但B站、小红书、恋与深空、酷安等多家大厂APP均受到波及。
“大家之所以感觉到宕机事件变多了,主要原因是互联网应用的数量变多了,像以前的Office和WPS这种单机软件现在也都连接了云服务,大量的传统应用都变成了互联网应用,仅苹果商店的互联网应用数量就超过200万个,而且这类互联网应用已经深入到我们的工作生活当中,比如微信、美团、抖音、腾讯会议等,因此我们对宕机的感知也会越来越明显。”郑乃东分析道。
实际上,随着互联网软件功能越来越多,结构越来越复杂,在日常运营过程中出现问题的概率也会越来越大。一些大型科技公司,如亚马逊、微软和谷歌等,每年在系统可靠性上的投入占其整体技术预算的15%~20%。而在国内,很多公司依然存在不重视可靠性、可靠性人才奇缺、没有可靠性管理、对可靠性认识模糊等问题。
“最要紧的是主观上的重视程度,不管是云供应商、软件开发商,还是运维环节的服务厂商等,各方都需要重视线上事故的预防、发现、定位、处理、复盘的全链条保障。比如投入专门的资金,设置专门的岗位来从事可靠性管控方面的工作。”郑乃东表示。
2、SRE有望在国内市场快速推广应用
SRE全称是Site Reliability Engineering,指网站可靠性工程,最早由Google提出,旨在提高软件系统的可用性、低时延、性能、效率、变更管理、监控、应急响应和容量管理等方面的能力。
“SRE主要通过自动化、监控、预防性措施和持续改进来减少故障发生的概率,并且降低故障所造成的影响。”郑乃东向记者介绍道。首先,SRE能通过监控和告警系统提前发现潜在的问题,并快速响应和恢复系统服务;其次,SRE采用软件工程的方法,与开发人员紧密合作,倡导构建业务系统内置的可靠性,并在运维过程中使用自动化和标准化流程,减少人为错误,从而进一步提升系统的稳定性;最后,通过降低琐事和持续优化的运营流程,SRE可以减少运维人员的工作负担,提高运营效率。
近年来,随着中国互联网产业、云计算快速发展,系统复杂性和对可靠性的需求大幅增加,SRE的价值逐渐被广泛传播和认可。国内互联网大厂如百度、阿里巴巴、腾讯、京东等大型互联网公司由于业务规模庞大、用户数量众多、系统复杂度高,率先认识到SRE的重要性,并积极推动SRE的实施。
郑乃东分析道:“这些公司需要确保其平台能够在高流量情况下稳定运行,避免服务中断对用户体验、公司收入及声誉造成的负面影响。因此,SRE成为它们提升系统可靠性、提高服务质量的重要手段。”
传统型企业乃至中小企业也开始主动关注,并在生产环境中应用SRE。据权威调研机构统计,2022年,中国约有40%的大型企业和20%的中小型企业正在推行SRE实践,并且这样的企业在逐年递增。“未来,随着技术的不断发展和企业需求的增加,SRE在全国的应用将更加广泛和深入。”郑乃东判断道。
3、AI给SRE带来挑战与机遇
尽管SRE可以显著提升系统的可靠性和稳定性,但郑乃东同时也指出,SRE存在局限性,并不能完全消除宕机现象和所有的技术问题。比如,复杂的业务逻辑问题,SRE主要关注系统可靠性层面的问题,复杂的业务逻辑错误仍需依赖开发团队解决。再比如,基础设施故障,硬件故障、网络中断等基础设施问题可能超出SRE的控制范围。另外,自然灾害、突发事件等不可预见的灾难,SRE无法完全避免,但可以通过灾备方案减小影响。
在郑乃东看来,AI的到来既为SRE带来了新的挑战,也带来了新的机会。一方面,AI系统本身就具有很高的复杂性,复杂的架构与当前系统的依赖关系使得企业需要花费很高成本学习和驾驭AI技术。据调研,超过60%的企业认为AI系统的复杂性是实施过程中最大的挑战之一。
另一方面,AI系统依赖大量的数据,数据质量和完整性问题可能导致模型误差和系统故障,SRE需要通过软件工程的方法,配合统一的数据模型确保所有管理数据管道的稳定性和可靠性。只有利用高质量的数据,才能使AI算法和大模型更加精确和高效。
此外,许多AI应用,特别是大语言模型相关的会话交互型场景,都需要实时处理和及时响应。在2023年的一项研究中,85%的AI应用对响应时间的要求在毫秒级以内。SRE需要确保相关系统具有足够的性能和低延迟,以满足这些实时性要求。
“AI模型管理、数据工程、安全性这三点非常重要。”郑乃东表示。他认为,SRE需要掌握AI模型的部署、监控和管理技能,确保模型在生产环境中的稳定性和性能,同时也要增加数据工程的能力,确保数据管道的可靠性和数据质量,以支持AI系统的正常运行。此外,AI系统可能面临新的安全威胁,SRE还应该关注AI模型和数据的安全性,防止内部敏感数据泄露和受到攻击。
4、国内SRE产业生态建设亟须提速
随着新质生产力发展步伐加快,企业数字化转型逐渐走向深水区。在这一过程中,构建稳定、可靠且高性能的基础设施至关重要。SRE作为基础设施战略的关键组成部分,为业界提供了实现先进基础设施策略的关键思路。
然而,业内人士普遍认为,国内SRE产业生态建设仍然面临着人才短缺、技术积累不足、文化转型难、工具和平台集成难等多重挑战。以人才建设为例,SRE是一个相对较新的领域,具备相关技能和经验的人才供不应求。2023年的一项数据显示,中国SRE工程师的供需缺口超过30%。这导致企业在招聘和培养SRE工程师时面临困难。
“我国在SRE实践上的技术积累相对较少,很多企业缺乏成熟的SRE实施经验和最佳实践指导,而在国外,约60%的大型企业已经实施了成熟的SRE实践。”郑乃东坦言。
为缓解人才短缺的问题,越来越多的培训机构正在开设SRE相关课程。鸿雪科技便是其中之一。其培训涵盖了SRE的各个维度,包括自动化、可观测性、AIOps、平台工程、高可用、灾备等,确保学员能够全面掌握SRE所需的各项技能。讲师团队皆为行业内资深SRE专家,不仅具备丰富的SRE实践经验,还参与过许多大型项目的实施,能够提供深刻的洞见和实用的建议。据统计,2023年参加专业SRE培训的企业系统可靠性提升了20%,运维效率提升了15%。
“SRE人才保障了AI及所有业务系统生产环境的可靠性和性能,通过自动化和可观测性减少了宕机风险。他们确保所有服务在高并发情况下稳定运行,是AI系统和所有其他业务的‘守护者’。SRE团队的存在能够将系统宕机时间减少50%以上。”郑乃东强调。他指出,算法和数据提供智能和支持,SRE确保系统可靠运行,三者共同协作才能实现AI系统的全面成功。