随着数据中心业务的爆发式增长,数据中心互联需求已经在过去的若干年里给光传输设备带来显著而不同以往的特点。不同于传统电信级光通信设备,数据中心互联设备有高带宽、接口开放、简化运维、快速部署、网络应用模式固定等特点。
传统的大机架设备,由于设计上各商用设备差别较大,没有统一标准,所以部署和运维难度大时间长,也不利于设备的开放和互通。
2020年9月,腾讯云在第22届中国国际光电博览会(CIOE)上正式发布两款重量级自研光网络产品,打通数据中心高速通路。
其中,OPC-4平台的CMUX-64成为目前业内首款64通道支持灵活栅格(Flex-grid)能力的光层业务单板;而TPC-4平台的T2X4C8则成为业内第一款基于400G可插拔2-DCO的电层业务单板。
这两款重要云计算“基础设施”的发布不仅创下了中国互联网厂商在完整波分系统产品研发上的记录,也为腾讯云为用户提供可靠稳定的云计算服务提供了有力保证。
腾讯不仅为数据中心应用专门设计了光传输的硬件,腾讯云常态化自动运行光网络的实践同样令人侧目。
构建常态化自动运行光网络
腾讯针对数据中心应用设计了开放光网络,切割成一个一个的独立单元,然后将单元标准化。针对数据中心的应用,设计了专门的硬件,更好的适用于数据中心的应用,构建标准化的管理体系,可以实现不同厂商设备的混合组网和统一管控,构建起标准单元以后,将这种标准单元快速地复制到了整个数据中心的应用中,有效地应对了数据中心带宽快速增长。
问题是,随着系统部署越来越多,系统规模越来越大,运营压力也会越来越高。腾讯构建的能够常态化自动运行的光网络,可以很大的减轻运营压力。
腾讯科技(深圳)有限公司光网络架构师陈明刚说:“从标准单元来入手,提升标准单元的自动化自主运营能力,使它能够自己管理自己,自己优化自己,自己修复自己。一旦标准单元具备了这样的自动化自主运营能力以后,就可以快速地复制到整个网络中。在整个网络层面实现一个常态化的自主运行。”
用于数据中心互联(DCI)的光网络在持续演进:最开始基于工程师经验驱动光网络、模型驱动光网络,现在即将迈入以数据为王,数据为中心的一个数据驱动的光网络。
最初,很有经验的工程师,将不同厂商的系统混合部署,这对大规模的应用来说非常复杂。不同厂商有不同的方案,即使面对相同的技术问题,工程师也具备最基本的原理分析能力,但还需要每一个厂商更加专业的工程师帮助分析问题。同时,还需要更加专业,针对每一个系统更加熟悉的操作人员来辅助,系统非常很复杂,运维系统难度非常大,而且需要很多的人为干预。
如何降低系统的复杂度,减轻人为干预?
答案是模型驱动。通过一种标准化的方法和持续化的控制解决问题,通过系统构建标准流程,程序构建模型统一的硬件设备,然后实现了对全网所有设备的统一管控。这是通常所说的模型驱动阶段。
模型驱动阶段更加强调模型的一致性、设备行为一致性。当构建起了很标准化的网络以后,迅速对标准化系统进行了数据化改造。极大程度提升系统的采集能力,使它能够具备一秒钟的集成能力,更加精细化,更加细节化地对系统进行全方位的采集,实现整个系统的全景数据化。
正是有了这样更多的数据,奠定了腾讯数据驱动阶段演进的基础。正是这样源源不断的数据让腾讯真正看到了从数据层面分析系统问题、解决系统问题的能力,也正是这些源源不断的数据构成了技术向前发展的驱动,构建数字引擎,通过数字引擎持续驱动系统不断发现问题,然后解决问题。
奠定四大基础能力
腾讯开放光网络的自动化控制架构,本质上是一个闭环控制系统。里面关键是以下的四大基础能力的构建:控制能力、采集能力、感知能力、分析能力。
系统通过很强大的采集能力采集到丰富的系统数据,然后通过系统的感知能力感知到系统的变化。然后再通过分析能力,为系统构建起了一种科学分析、科学决策的能力,使它能够对系统任何的变化产生科学的决策,然后将这个决策反馈给控制系统,由控制系统实现对系统的精确控制,实现整个的控制闭环。
感知系统很容易和采集系统产生混淆。陈明刚解释到:“胳膊被针扎了,这个时候最直接的采集信号就是疼,会感觉到疼痛,但人大脑会迅速的感知出哪一个是针扎,感知系统是对数据的分析能力,然后可以得到一个结论。构建网络这样的能力,它依据采集到的数据可以感知到究竟出了什么问题,哪出了什么问题。现在已经腾讯完成了控制能力和采集能力的构建,正在进行感知能力和分析能力的构建。”
怎么构建感知能力?从两个维度构建:
一是系统维度,整个系统会有很多的指标和参数,这些指标和参数可以从一定的程度上反映出系统的变化,所以说在系统的层面最细节的是一些指标的感知。系统最终是由一些硬件、软件还有光纤组成,这是最终可以进行运维、更换和处理的最基本单元。
在这个层面上要实现感知,能够精确地感知到到底哪一个地方出现了问题,可以让运维人员迅速做出反应。传送系统提供了带宽,感知诉求就是要感知带宽,要让系统时时刻刻的在数字的层面,在系统的层面上知道带宽现在是什么样子。未来一段时间内将会是什么样的,或者说未来更长的时间以后可能会变成什么样,才能够使得系统更加常态化的自动运行。
另外一个是感知维度,从时间的维度上,腾讯定义了三种感知的能力。第一种感知的能力,快速感知、中速感知和慢速感知。
快速感知就是针对现在整个系统里采集到的每一秒性能的全景数据然后进行快速的实时分析,迅速的发现整个的系统问题或者说是故障。
中速感知。快速感知可以迅速的发现一些故障,但其实有一些系统里很本质的变化或者说关键性变化不能通过一两个数据的变化就可以很明确的得出结论。往往需要定量的数据分析和判断,最终给出这样的结论。中速感知就是提供这样的一个感知的能力,然后通过一定数据的分析,为系统关键指标得出最后结论。
慢速感知,其实就是对更多数据的一个感知。提供更多的趋势性预测。
现在采集和感知的数据主要是来自于系统内部,但如果有挖掘机把光缆挖断了,导致哪里没有服务了,很多都是外界的,这需要对光纤外部环境十几米环境的感知能力,扩展感知边界。这不单单需要有数据,更需要一些新的技术,比如说光纤传感技术。因为这种技术能够通过光纤来感知外界的变化。
“腾讯也有计划将这些新的技术引到系统中,使我们具备探测光纤外界环境的能力,从而扩展系统的感知边界。”陈明刚说。
数据和算法决定一切
未来做什么,未来遇到怎样的挑战?腾讯已经从一个经验驱动的光网络到一个模型驱动的光网络,演进到真正数据驱动的光网络。
在真正数据驱动的时候,不单单给系统带来了很大的变革,也带来了很大的挑战。因为今后看待系统的时候,主体就是数据和算法。数据和算法两个都会直接的决定着你最终的系统是不是优秀。
如果获得的数据质量很差,再好的算法也无法得到正确的结果。
在数据的层面,需要控制数据源的质量。如果开始获得的数据源不好,即使每一秒钟都有数据,但也许数据间隔不稳定,并不能很精确地拿到每一秒的数据,这个时候需要提升数据源的质量。
在算法方面,腾讯希望得到更多通用的算法,针对指标分析更多通用的算法,针对硬件和系统分析更加通用的算法,以及针对整体的带宽的算法。
“交换机的系统,服务器的系统,甚至是数据中心得到了相同数据之后,我们的算法可以很平滑的牵引过去。”陈明刚说:“在算法和数据的层面,我们都是希望有更多的合作伙伴可以与我们一起合作,一起来发现数据背后的真相”。
结 语
保障云计算基础设施稳定高效运行,数据源质量提升固然非常好,但不代表永远就好,还需要对数据源有监控的机制和监控的能力。
要能够监控数据源,监控数据的质量,保证这些数据能作为很高质量的燃料。而拿到了大量的数据以后,其实是需要发现背后的真相,这对系统才更有价值。只有知道数据真相,进行优化,真正提升系统的质量。腾讯云光网络的目标就是找到了数据背后的真相,让系统高质量的运行。
这既是真正的难点也是真正的价值。
投稿、转载、采访
请猛戳左边二维码
深度围观频道文章同步百家、大鱼、雪球、知乎、和讯名家、企鹅、网易、搜狐、新浪微博、头条、一点资讯、快传号
与各芯片厂商保持合作关系 自研芯片性价比提高40% 这朵云不一样
边缘计算浪潮涌 最快落地场景会有哪些?
超数据中心越来越大 自动化运维面临挑战 英特尔做了啥?
IBM为云计算操碎了心 英雄迟暮还是壮志未酬?
本文首发于微信公众号:深度围观。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
(张洋 HN080)