今天数据中心的规模越来越大,超大规模的数据中心不断涌现,大型数据中心目前自动化运维是非常大的一个挑战,从底层的设备级管理到机柜级的管理,再到数据中心级的管理,以及上层应用,这是一个逻辑环环相扣的框架。
对管理部件带来新的挑战
今天的数据中心面临三个层面的挑战:
首先,CapEx投入成本,资源利用率普遍偏低,超过50%的数据中心已经非常不错。
其次,由于考虑业务不确定性,规划数据中心的配套时,通常都做超配的处理,这些资源很少被充分的利用。运营成本、能效利用率,今天为电费掏的每一分钱是否转化为实际业务输出?随着业务规模不断扩大,今天的数据单位业务产出的运营成本到了一定的规模以后,持续摊薄还是跃升?
最后,业务的形态越来越多,业务的迭代速度越来越快,如何提升硬件设计的弹性,满足业务的快速迭代需求?从今天系统的可用性角度看,随着用户将越来越多的关键业务和数据放在云端,云的可靠性和可用性变的尤为关键。
“由于软硬件的故障或者系统升级带来了业务的中断时间变得越来越敏感,所有这些都推动着支撑云的硬件设计模式向着更加灵活、更加弹性的方式进行转变。”英特尔数据中心平台事业部高级架构师宋川说
维护性停机对数据中心影响巨大
今天,支撑云计算的各种硬件资源,计算存储网络和各种加速设备。在这一层管理固件与硬件紧密配合,形成了支撑整个云计算的基础资源能力。
随着云厂商对云平台硬件定制化需求增加,硬件设计模块化、标准化以及白盒化成为趋势,相配套的固件也需要一个白盒化的模式,不再是黑盒子。
一方面是围绕着芯片的固件支持包,考虑到芯片的复杂性,通常是采用了二进制的方式进行发布。
另外一方面是,围绕开源固件的基础框架,云厂商可以通过这样的开源基础框架,快速的构建一个固件的开发平台,减少固件开发的复杂度以及投入成本。
宋川说:“这主要涉及到三个开源项目,OCP下的开放式系统固件项目,板级管理固件OpenBMC,以及覆盖机柜层面的管理固件OpenRMC。”
基于开源的固件基础框架,云厂商可以构建自己的个性化的固件需求,形成最终的固件产品。其中闭源模式,由云厂商自己完成,或者协同ODM IBV ISV完成。固件和上层软件的接口,英特尔提供固件白盒化支持的方案。
系统固件,围绕服务器芯片各种固件的支持包或者开发包。由于服务器芯片的启动流程比较复杂,为了方便用户系统集成,英特尔把这块做成了二进制包的方式提供给客户。另外,UEFI的开源固件的基础框架,主要是基于EDKII社区的方式进行发布。开放式标准化的系统固件的白盒化的开发模式来支撑今天云厂商对系统固件的白盒化的需求。
另外,板级和机柜层面的管控固件的支持,涉及到OpenBMC和OpenRMC的项目,英特尔对云厂商提供的公版设计,BMC所有特性都是基于OpenBMC的代码数提供的。
今天云厂商对系统的可用性要求越来越高了,一般来说,维护性的需求带来了维护性的停机,整个数据中心的占比30%。非常关注的硬件故障导致的停机只占到10%,可以看出维护性的停机对数据中心的可用性的影响是硬件故障停机的3倍影响。维护性的停机来自系统更新、应用打补丁的过程以及例行的维护性的检查。其中,系统更新影响最大,因为通常会带来平台的重启,会带来业务的下线。
未来云平台能否永不重启?
经常听到云客户问未来在云平台能不能做到永不重启?宋川说:” 受限于软硬件的条件,短时期内永不重启是一个理想,但可以通过技术创新,以及生态的整合来降低由于系统更新带来的维护性停机对业务的影响。”
英特尔建议日常运维管理将维护性的停机带来的停机时间纳入到系统可用性的基础评估,停机的时间、频次以及单位成本。系统化地根据业务需求定义单次维护性停机的容忍时间,以及相应的解决方案。
有的客户给我们讲单次维护性的停机做到10秒以下可以接受,有的客户讲我的业务需要做到2秒,甚至是1秒以下。
“主要还是要根据业务有不同的需求,积极的采纳一些升级管理的新技术创新,降低固件升级或者说是系统升级对业务的影响。”宋川认为
英特尔推动的固件升级的技术创新,运行期的更新减少更新对系统重启的需求。降低启动时间对整个业务的中断影响,平台的运行机制降低了固件的运行服务升级和运行对业务的干扰。
统一硬件管理API是重要一环
今天,大规模的数据中心的管理需要智能化、自动化,在这个过程中需要构建一个覆盖整个数据中心维度的管控视图,其中一个关键的挑战,是缺乏统一的硬件管理API。从几个角度来看,今天的云操作系统需要去管理硬件基础设施,需要管理云资源。这其中有大量的跨平面的互操作性的需求。需要一个统一的资源模型来描述支撑云计算各种硬件资源。成千上万台服务器如何规模化,快速化的推送我们的系统配置,推送我们的系统更新?
英特尔的解决方案是Redfish。外围的各种组件上的固件,它们之间的升级需要一定的依赖关系。如果说在升级的过程中发生版本的错配或者是升级顺序的颠倒,这会带来系统的故障。英特尔通过基于Redfish构建一个固件升级的依赖模型,云操作系统的固件升级程序可以分析固件之间的依赖关系,然后构建一个升级的工作,然后完成数据中心规模化固件升级的快速化。
今天的处理器支持很多很复杂的性能和功耗的特性,英特尔SST支持三个不同的基频,可以根据服务器的激活的核的数目进行动态的调整。如何在云操作系统中规模化的描述和使用这些的能力?英特尔贡献给redfish处理器的管控模型,最上边的可以是节点,下面是计算系统,计算系统下面挂了多个的处理器,每一个处理器下面可以根据实际的硬件能力申请配置能力。推动redfish作为数据中心硬件管理API的标准化。
宋川说:“希望通过redfish帮助降低今天数据中心管理的复杂度,提升数据中心运维管理的效率。”
投稿、转载、采访
请猛戳左边二维码
深度围观频道文章同步百家、大鱼、雪球、知乎、和讯名家、企鹅、网易、搜狐、新浪微博、头条、一点资讯、快传号
IBM为云计算操碎了心 英雄迟暮还是壮志未酬?
百度造车:一个并不艰难的决定
数据海量增长 云计算需要什么样的存储?
海量数据时代 弹性资源部署如何实现?
本文首发于微信公众号:深度围观。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
(董云龙 )