自研上云,是腾讯在阳光灿烂的时候修屋顶,也是给一艘正高速航行的大船更换引擎。
自2021年第四季度以来,To B业务已经连续两个季度成为腾讯集团的收入支柱,这也是腾讯为“930变革”实施三周年,交出的一份答卷。
2018年的“930变革”,腾讯明确了“拥抱产业互联网”的战略方向,腾讯云也成为其抢占To B市场的桥头堡。过去三年,在外界看来,腾讯自研云产品的稳定性和丰富性不断提升,在中国公有云服务市场的份额也不断增长,但绝大多数人没有察觉到的是,腾讯内部在进行的一场“激烈”的技术改革。
在业务组织架构调整的同时,腾讯也成立了技术委员会,大力推进“自研上云”和“开源协同”。这是腾讯在技术层面上的战略改革,目的是打破过去各BG(事业群)技术栈割裂、重复造轮子的问题。
腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生(Dowson)是腾讯技术委员会的牵头人之一,同时也是腾讯To B业务的掌舵者。在“930变革”之前,汤道生经常被客户挑战一个问题:“你们总说腾讯云有多好,那腾讯有多少业务使用了腾讯云?”
这其实是一个很常规的问题,无论是国外的AWS,还是国内的阿里云,都承载了各自集团最核心的业务。但对腾讯云团队而言,每每被问及这个问题,他们都无法正面回答。
在消费互联网时代,腾讯为追求灵活创新,鼓励小团队作战,这也导致腾讯各个BG相对独立,包括业务及技术体系的独立。因此,在上云这件事上,不同BG的进程各不相同,即便一些已经上云的业务,用的也是自己独立的虚拟化技术栈。
而“自研上云”项目,要打破这一现状。过去三年,“自研上云”被冠以腾讯顶层意志,在腾讯内部逐步推进,这个过程,相当于给一艘正高速航行的大船更换引擎,其难度可想而知。
知难而上,需要破釜沉舟的勇气,自研上云也是对腾讯的一次全方位考验。它要考验这场自上而下的改革如何解决小团队作战与大一统上云的矛盾,如何说服精兵团“不自己搞闭环”,同时,也考验腾讯顶层设计者的智慧、中间层管理者的执行力以及普通员工对于变革的包容和理解。
总办“通行证”
2018年9月,腾讯最高决策机构“总办”在香港召开了一场会议,正是这场会议,敲定了腾讯930变革的方向。
时任腾讯社交网络事业群(SNG)总裁的汤道生,是接管新成立的CSIG(云与智慧产业事业群)的最佳人选。汤道生告诉21世纪经济报道记者,当时他向Pony(马化腾)和Martin(刘炽平)提出,自己可以承担To B业务,但公司要给予支持,比如定一个时间点,三年内所有新的业务或者新的资源都必须长在云上。
对于汤道生提出的“条件”,在场的其他总办成员没有反对,Pony和Martin也爽快答应,就这样,汤道生为腾讯云争取到了一张宝贵的内部“通行证”。
在整个930变革中,自研上云只是其中的一个小议题,不仅如此,这种自上而下推动一个项目,也有别于腾讯一贯的管理风格。但它能顺利得到总办的认可,是因为在汤道生提出之前,腾讯内部已有两股“暗流”涌动:
一方面,腾讯管理层已意识到,过去以产品为导向的割裂的技术栈,不仅产生了大量资源浪费,也无法有效支撑新时期的业务创新;另一方面,随着云计算的不断发展,腾讯很多业务和工程师们已经自发地去拥抱云原生技术,并进行了大量云上实践,上云已是大势所趋。
所以某种意义上,腾讯上下其实已经在上云的问题上达成共识,然而,“上云”和“上腾讯云”是两个概念,汤道生以及腾讯管理层要推动的,不仅是自研业务上云,而且要上腾讯云,这也导致腾讯内部在共识的基础上,产生了一些分歧。
另一位总办成员——腾讯高级执行副总裁、技术工程事业群总裁卢山也是腾讯技术委员会的牵头人,他和汤道生分工明确,他侧重开源协同,汤道生主要推进自研上云。
卢山告诉21世纪经济报道记者,开源协同是解决一个大公司内部技术协同的问题,与是否上云没有必然的关系。但是,云和开源是近十年互联网技术发展中最重要的两个议题,也具有一定的相互促进关系。
比如K8S(Kubernetes, 部署和管理容器化应用程序的开源系统)是腾讯开源协同的一个重要项目,内部各技术团队都要为其发展贡献力量。腾讯云的容器云原生产品TKE就是基于K8S搭建的,这也是内部业务上云的统一框架。而开源协同能更好地打磨TKE,更好地服务自研上云。
除此之外,无论是开源协同还是自研上云,卢山和汤道生要应对的内部挑战也是相同的。卢山表示,“大公司有部门墙是必然的,因为公司大了以后,对每个事业群的考核就是要能打胜仗,而打胜仗的前提是小、快、灵,要有自己闭环,时间长了,也就导致不同事业群会各走各的技术路线”。
而自研上云要做的,是打破各个BG的闭环,让它们把业务迁移到腾讯云上。这对于原先的技术团队而言,难免会有排斥心理,而在不得不改变的前提下,给腾讯云提要求,尽可能保证上云后不影响原有业务,也成为他们应对自研上云的第一反应。
所以,拿到总办的“通行证”,只是推动自研上云迈出的第一步,后面更艰巨的挑战,是如何推倒腾讯内部的部门墙、打破各个团队之间心理隔阂,让自研上云这件事真正带来价值。
什么是上云?
2019年初,在“930变革”实施几个月之后,腾讯内部召开了一场关于自研上云的会议,会议的核心目的是明确“什么是上云”。
会上,CSIG的发言人话没说完,就被卢山打断。这位发言人提出,只要是各个BG的业务跑在腾讯云提供的虚拟机上,那就算上云,但在卢山看来,这是在偷换概念。
“如果各BG的业务只是用腾讯云的虚拟机,这显然不能算真上云,只是把自己的技术栈换了个地方”,卢山说道,但他心里也明白,CSIG给出这样的口径,只是因为无法搞定其他BG。
当时在场的,除了卢山还有Dowson,他们与Martin商量一番后给出了结论:自研上云必须基于腾讯云的容器云原生产品TKE,才算真的上云。
对“自研上云”项目而言,这是一场关键的会议。正是因为有了这场会议的定调,上云的路径在腾讯内部才得以明确。后来,在2019年下半年,腾讯技术委员会对“上云”又提出了更高的要求:除了原先基础设施和资源层面的搬迁之外,业务也要完成云原生的适配和改造。
腾讯云副总裁徐勇州主要负责云技术运营、服务体系建设,也是自研上云项目CSIG侧的牵头人,他告诉21世纪经济报道记者,根据腾讯自研业务的不同,上云也分为两种情况,一是业务跑在物理机或虚拟机上的,那上云的工作量主要来自于打包并基于K8S体系进行部署。
另外一种是,部分业务已经使用了部分容器技术,只不过用的不是腾讯云的TKE.对于这些已经云化的业务,只需要做一些接口的适配,就能实现迁移。
徐勇州告诉记者,与从物理机或虚拟机上云,以及从其他云迁移至腾讯云相比,让业务部门从虚拟化到云原生的转变是更难的,因为它已经不仅仅是资源的搬迁,而需要业务进行底层架构的彻底改造。
内部“破冰”
面对腾讯庞大的自研业务生态,推动自研上云需要先抓“大头”以及“搞定最难啃的骨头”。
“如果优先搞定了核心数多的业务,那其他长尾的、腰部的业务也自然会跟进,所以我们当时花了很大的精力去盯住各个BG里最大头的业务”,徐勇州说。
但是整个2019年,即推动自研上云的第一年,徐勇州都有很强的挫折感。虽然在做早期规划时,他就已经意识到,这是一条没有捷径的道路,并做好了逢山过山、逢海架桥的准备,但当业务部门真的指着腾讯云的产品说这不行那不行的时候,他发现,推动自研上云比想象的要难。
比如某业务部门会提出,腾讯云CVM的损耗不能高于8%,如果高于这个值就不能接受。拿到这个需求后,腾讯云就需要回去做评估,看自己能否满足要求,如果满足不了,就要想尽办法去优化。
类似损耗、延时等方面的需求,腾讯云一开始遇到了非常多,也碰过一鼻子灰,而他们能做的就是逐一去解决问题。比如上面提到的损耗,腾讯云当时做到了5%,到现在,腾讯云虚拟机相对于物理机的损耗则已经到0.
不过,腾讯云在服务业务部门上云的过程中,也遇到过一些“事故”。
2020年,腾讯有一个很重要的手游上线,起初几天运行平稳、风平浪静。但随着玩家数量增加和等级成长,两周后腾讯内部论坛上突然出现匿名吐槽卡顿的消息,更有游戏运营人员留言直指云服务器的性能问题。
随后,腾讯云、TEG、IEG协调专家一起“会诊”,在两天一夜后终于排查出原因。除玩家数量增多外,也的确跟云服务器选型部署相关——该手游在部署云服务器时选择了标准型服务器,而没有选择高主频的计算型服务器,这导致服务器性能与业务需求不太匹配。
所以,腾讯云和手游团队前期沟通不够充分,导致未能在最初就实现最优的解决方案,是这次“事故”的主要原因。
这也推动腾讯云进一步提升了对内的服务能力,后来他们在服务业务部门时,都会主动梳理和讲解一些关键内容,并针对不同业务整理出对应的检查流程,主动避免因沟通不充分而出现问题。
“现在,我们隔三差五就会收到IEG游戏工作室送来的小蛋糕,庆祝游戏顺利上线或者扛过一个峰值。他们会感谢自研上云项目组的支持,对我们来说,这种认可十分温馨”,徐勇州表示。
在推动自研上云的过程中,也有一些关键转折点,2020年星星海服务器的上线是其中之一。
自研上云带来的海量业务需求,催生了自研服务器星星海的诞生。而星星海服务器上线以后,在降本增效方面的出色表现,也吸引诸多业务部门主动要求使用。
汤道生告诉21世纪经济报道记者,像微信这么大体量的业务,它一直都有新项目、新能力上线,所以对于星星海服务器这样成本更低的资源有较强的需求,这也是微信愿意上云的原因之一。
除了成本方面的考虑,腾讯云在一些技术领域的积累,如音视频领域的直播、点播、低延时等技术,也对腾讯一些新业务的发展起到了重要推动作用。比如微信做视频号,就直接使用了腾讯云的很多能力,这使得它不需要自己再投入资源去构建底层技术。
汤道生坦言,腾讯的管理风格从来都不是自上而下的,非常尊重员工意愿。所以虽然制定了自研上云的大方向,但最后要让业务搬到云上,也不会通过强迫的方式。
“推动自研上云,没有什么捷径,我也没有什么杀手锏。要想做成这件事,需要腾讯云团队有非常好的服务心态,让业务部门认可腾讯云的价值,相信我们能够支持好他们才行”,汤道生说。
云的价值
过程虽有诸多曲折,但自研上云项目最终实现了三年目标。如今,腾讯自研业务已经全面搬上公有云,开启了云端生长新时代。
与此同时,得益于公司层面的统一管理和TKE的在离线业务混合部署能力,腾讯自研业务的服务器资源利用率从30%提升至65%。腾讯业务全面上云为集团累计节省成本超过30亿元。
汤道生说,今天回看过去三年多的变化,很庆幸当时作出了自研上云的选择。“这三年行业变化很大,无论是大的技术趋势还是行业发生的变化,都要求腾讯具备更高效的管理能力。如果当初没有推动自研上云,现在随着业务的收入和利润压力越来越大,腾讯的压力也会更大”。
现在看自研上云,可谓是腾讯在阳光灿烂的时候修屋顶。最初,包括汤道生在内,都不确定自研上云能否真的节省成本,而且当时的ToC业务,盈利能力比较强,对成本的控制也没有那么敏感。
但现在,腾讯各个业务部门都开始注重成本控制。最近一段时间,腾讯很多业务团队都在往回退资源让腾讯云帮忙消化,可如果不是因为有自研上云的机制,这些资源业务部门很难说退就退。
今年,汤道生在多个场合询问了不同BG的运维负责人,问他们自研上云是不是真的对业务有帮助,汤道生得到的都是肯定的回答。“所以,越是在毛利率没有那么理想、需要精细化运营的时候,大家就越能理解当初为什么要推自研上云”,汤道生表示。
在接受记者采访时,无论是卢山、汤道生等总办成员,还是其他中高层业务领导,都不约而同的提到了“乐问”,这是腾讯内部一个交流平台,据称每天有80%的腾讯员工都会上乐问。
乐问的开放与真实,也成为很多业务的验金石。汤道生坦言,在推动自研上云过程中,最让他情感最受挫的,就是看到乐问上其他业务部门的吐槽。
“内部员工说话比较狠,有些抱怨也很难听,但对腾讯云团队而言,这些也相当于来自客户的反馈,所以看到吐槽,就会派人去对接、解决”,汤道生说。而现在,让汤道生颇为欣慰的是,即便有人在乐问上对腾讯云提出质疑,下面的评论中也会有其他业务部门的人作出客观评论。
俘获了业务部门的人心,这是腾讯云在自研上云项目中最有价值的收获。因为这意味着业务部门不再是迫于顶层压力,被动去接受腾讯云,而是出于对腾讯云的认可,愿意与腾讯云协作发展。
如今,腾讯的微信、视频号、腾讯会议、腾讯文档、王者荣耀、和平精英等明星业务均已经跑在腾讯云上。腾讯云团队也终于可以自信地回答“腾讯有多少业务跑在腾讯云上”——这个过去不敢正面回答的问题。
(文章来源:21世纪经济报道)
文章来源:21世纪经济报道