通过互联网,用户可以非常方便地使用云服务,因此互联网上的“云”正迅速扩张,变得越来越庞大,甚至能把产业链的不同环节整合在一起(见“云计算服务与健康”)。此外,云计算还让一些很有想象力的应用成为现实(见“云的应用”)。
云服务提供商集成的大量存储和计算资源能形成规模效应,用户可以随时根据需要购买相应服务,而不需要为了短暂的高峰需求购买大量资源。从这个意义上说,云服务比本地服务更加节约资源和能源。根据模拟软件CLEER的估算,如果所有的美国公司都把自己的电子邮箱程序、电子表格应用和客户管理软件都转移到集中的云服务器里,就可以把计算耗能降低87%,节省下的能源足够让洛杉矶运转一年(见“能效模型软件CLEER”)。
云计算的好处显而易见,但随着其规模越来越大,云计算本身的能耗越来越不可忽视。今天,云计算的耗电量已经超过全球总耗电量的1%。而且,把资源聚集在一起形成规模效应本身也有成本。云计算服务商需要专门建设数据中心,并在数据中心里安置成百上千台服务器、处理器和硬盘设备。这些设备运行时会散发大量热,因此数据中心需要额外的支持设备(比如散热系统)来维护正常运作,互联网公司谷歌甚至专门成立了能源部门为自己的数据中心供能。
一般来说,一个占地500平方米的数据中心每天消耗的电力就高达38 000度,这一数字超过了3 500户欧洲家庭用电量的总和。从2000年到2007年,全世界数据中心的耗电量已从700亿度增至3 300亿度,到2020年预计将超过1万亿度。此外,在2014年,只有8.5%的数据中心负责人预计在2015年后数据中心的容量仍然够用,到2020年时,75%的数据中心必须要扩容。因此,到2020年,预计数据中心的建设规模几乎将是2010年的2倍,达到780亿美元,这让云计算的能效、对环境的影响等问题更为突出。
所以,从上述数字可以看出,为云计算设计高能效的解决方案已经是迫在眉睫的问题。
什么地方在浪费能源?
云计算系统有几个不可或缺的部分。首先,它需要大量的硬件设备来存储并处理数据。这些硬件设备包括放置在机柜内的计算和存储服务器,以及处理器、内存、硬盘等服务器组件。其次,在服务器之间,服务器与用户之间需要连接,所以网络也必不可少,它是连接用户与计算、存储等云资源的桥梁。此外,数据中心还需要专门的软件来监控和管理云计算的基础设施,这些软件就是云管理系统(cloud management system,简称CMS)。最后,云服务商还需要安装合适的应用软件,帮助用户使用云服务(例如用户可以通过网页浏览器使用谷歌的Gmail服务)。
这几个部分都需要消耗大量的能源,也都会损失和浪费很多能源,比如在夜间温度较低时,散热系统仍在全速运行,或者系统在运行,却没有为用户提供服务。2003年,单机柜服务器的功率密度在250瓦到1.5千瓦之间,而到了2014年,这个数字上升至10千瓦,预计到2020年会上升至30千瓦。而且,大多数服务器空载时的功耗超过峰值功耗的50%,服务器的平均利用率一般只有10%到50%。因此,一部只以20%性能运行的服务器的能耗,可能相当于它满载时能耗的80%。考虑到仅在2013年最后一个季度,新服务器的出货量就超过250万台,提高服务器的能效就成为第一要务。
而在网络环节,主要有3个地方会消耗能源:数据中心内部的连接、不同数据中心间的网络连接,以及让外部用户访问的固定网络和无线网络。在目前的数据中心,网络成本占所有运营费用的10%,这个数字还可能随着互联网流量的增加上涨到50%。如果服务器空载,就会耗费大量能源。如果网络架构不适合云应用,信息的传输途径也会发生改变,网络的某些部分就无法得到充分利用,能源浪费就会加剧。
由于信息技术的能耗越来越高,在数据中心的设备中,监控和管理云计算的基础设施就变得很重要,云管理系统的作用就是提高数据中心的能效。不过,如果使用不当,云管理系统本身也会浪费能源。云管理系统包括调度程序、监控系统和虚拟技术,虚拟技术可以让数据中心在一台物理机器上运行多台虚拟机,从而提升其利用率。但因为要增加一个额外的软件层,虚拟化会提高日常能耗(称为管理程序)。监控系统也会提高日常能耗,因为在收集管理基础设施所需的信息时,需要使用代理和探测工具。
最后,云计算服务还包括应用设备,这些设备的使用者为终端用户。例如,如果通过网页浏览器访问云服务,那么浏览器就是应用设备。应用设备包括了操作系统、平台和应用程序。有时,用户只需要简单地使用云计算服务(比如上文提到的通过浏览器使用电子邮箱),这种方式叫“软件即服务”(Software-as-a-Service,SaaS)。这时,云服务和应用设备都完全处于供应商的控制之下。类似的情况还包括“平台即服务”(Platform-as-a-Service,PaaS),这类云服务的用户往往是软件开发者,他们使用云计算平台提供的硬件设备、操作系统和其他软件进行软件开发。另一种情况是“基础设施即服务”(Infrastructure-as-a-Service,IaaS),应用设备由用户部署,因此在这种服务方式下,用户对应用设备的能效负责。
应用设备(如Java虚拟机)的运行通常都会产生日常能源消耗,如果应用设备性能不佳,就需要更多服务器,消耗更多的能源。
提高硬件设备的能效
提高能效的第一步是升级网络设备,增加节能模式,减少网络设施在未被充分使用时的耗电量。如果能把未使用的端口、连接和交换机完全关闭,它们就不会因为空转而耗能了。
升级后,设备的热载荷也会下降,这又会降低散热系统的能耗,提升系统的稳定性。不过,只调整网络设备是不够的,因为当网络连通性降低时,系统性能也会下降。所以,还需要调整网络结构,让网络流量可以沿着多个路径传播,或只通过少数几个高能耗的关键路径发送,而网络中的其他部分则进入低能耗模式。这种方案还可用于数据中心间的网络,充分挖掘网络带宽,因为批量传输所需的成本比单独传输要低。
除了降低数据传输的能耗,优化网络结构还可以降低基站的发射功率——基站是云端与终端之间传输信息的桥梁。连接手机的大型基站覆盖面积较大,基站和手机间的距离通常也很远,所以需要相当大的发射功率,才能保证大范围内的手机通信,但这样一来,能耗无疑很高。为了降低能耗,我们可以充分利用与用户更近的小型基站。小型基站覆盖范围较小,但部署灵活,还可以将路径衰减降低好几个数量级。现有的研究表明,在城市地区使用小型基站,可以使空载模式下的能耗降低至原来的1/46。
服务器和网络设备相似,如果可以根据负载自动调节功率和性能,就能降低能耗。今天的CPU、内存和硬盘都可以选择负载和空载两种模式,并相应调节电压和频率以降低能耗。为了延长硬盘空载时间,CPU会优先从缓存中读取信息,只有在缓存中找不到数据时,服务器才会访问硬盘。缓存本身也能优化甚至关掉部分未用缓存。最终,新的低功耗缓存技术可以和现有技术相结合,在保持性能的同时降低能耗。
服务器机柜的设计也会影响散热和供电的能效。研究人员发现,与使用机房空调相比,能对特定组件进行局部散热的服务器机柜有更好的节能效果。比如,通过一些特殊的冷却技术,可消除由处理器产生的热量。此外,还可以通过调节组件本身(比如调节内存数据吞吐量),避免热损失的发生。从供电环节开始限制能量输入,或对数据中心的能耗设置一个上限,也可以降低单一组件或整个服务器机架的能耗。最后,使用紧凑的服务器配置,直接去掉未使用的组件,也是减少能量损失的好办法。
从云管理系统着手
使用云管理系统的主要目的,是对基础设施(包括服务器、虚拟机和应用程序)进行调度以实现负载平衡。虚拟机是体现云服务优越性的最佳范例,它借助软件模拟出计算机系统,具有硬件功能,可以在完全隔离的环境中运行。有几种虚拟机的使用方法能提高云计算的能效。首先,可以让虚拟机根据负载情况重新调配资源;其次,可以为虚拟机的布置选择能效最高的物理机;最后,可以将未充分利用的虚拟机迁移至数量更少的主机上,并把一直未使用的虚拟机关闭。
不过,这些步骤需要CPU软件功耗模式来实现。该模式下,软件和硬件彼此协调以共同调整能耗。而且,服务器本身也可以通过调整实际负载来降低能耗。研究表明,即便使用简单的试探法(比如在服务器持续空载一段时间后关闭服务器),也能节约大量能源。
下一步措施是在更宏观的范围内实施管理措施,比如合并多个数据中心。但是,这会增加虚拟机迁移所需的开销,在输入输出两端都要消耗能量。为了弄清楚合并数据中心能否提高能效,我们可以借助一些模拟工具,如CloudSim,它可以评估云计算管理系统消耗和节约的电量,并进一步比较服务质量的变化。显然,如果既能降低能耗,又不会影响用户使用云服务,这种合并就有利于降低云计算的能耗。云管理系统不仅可以控制服务器,还可以控制网络系统,甚至控制散热和供电,因为云管理系统“知道”需要哪些资源,不需要哪些资源,因此可以选择合适的虚拟技术,并在服务器空载时关闭散热设备。 云管理系统的建立方式也很重要,采用模块化方式来建立云管理系统就很有优势,因为这允许技术人员在实际需要某个模块时加载相应模块。比如,在需要监控某些特定组件时,技术人员可以在原有系统中添加某些插件;而在不需要监控这些组件时,技术人员也可以终止运行这些插件。
同时,研究人员也在开发高能效的软件,降低应用程序在空载状态下的能耗。比如,限制用户远程唤醒服务器可以延长空载状态时间,尽量向用户发送消息而非让用户或客户端向云服务器主动发起请求,可以让软件在真正需要其运行之前保持休眠,对资源(如磁盘)的批量访问也可以减少不必要的唤醒。
监控应用设备的能效以及时采取节能措施是另一种提高能效的策略,但这种策略不大容易实现。就像监控虚拟机一样,科学家在研究应用设备使用资源和耗费能源间的关系时,主要还是在关注CPU。但是,还有一些更复杂的方法试图检测硬件的唤醒过程——正是这类过程阻止了硬件进入睡眠模式。一些研究显示,由于硬件消耗的能量大得不成比例,导致只处于轻负载下的系统也要消耗大量能量。因为即便应用设备处于空载状态,监控系统、虚拟化和操作系统的日常能源消耗也会继续让硬件处于唤醒状态。因此,如果能优化这些比较耗能的日常服务(比如添加监控界面,优化操作系统等),就可以降低资源的使用量和能源的消耗量。
不过,在现实世界部署高能效方案并没有看上去那么简单。服务器组件的低能耗模式只有在服务器长期空载的情况下才有益处,而这种情况在实际使用中并不常见。而且,尽管服务器在执行轻量级任务时的使用率很低,但为了满足访问高峰时的需求,仍有必要保持适当的“弹性”。因此,可自我扩展的服务器组件必须与软件组件相关联,否则调节CPU模式的技术会被错误应用,导致CPU运行频率过低,应用程序的运行时间变长,最终导致CPU的整体能耗上升。另一个目标是让空载组件的能耗接近于零,这可以通过合并未充分利用的服务器来实现。
研究人员认为,对有线网络来说,完整的节能方案既包括局部的优化策略,也需要大范围的优化策略,两者可以共存。但要实现这一点并不容易。一方面,我们还不清楚高能效的网络设备是否可以保证服务质量;另一方面,我们也不知道如何在现实网络中应用高能效的网络协议。如何整合设备与技术都很多样的无线网络,一直是学术界和业界的研究课题。例如,结合了小型基站和大型基站后,因为小型基站的硬件速度相对慢得多,所以它们的数据处理速度就成为了云系统服务质量的限制因素。
整体解决方案
为云计算提供支持的数据中心是一套高度耦合的系统,几乎可以视作一台大型计算机。因此,除了从数据中心的每个部分着手,降低能耗之外,还得把整个数据中心视作一个整体,分析各个基础设施之间的相关性,进而寻找节能方案。
应用设备是云计算中可管理的最小单位,但它们的性能可以影响所需服务器的数量,从而产生多米诺效应,进一步影响网络规模和支持性的设备——比如散热和供电设备的数量。因此,为目标应用程序选择适当的硬件资源,可能会对数据中心的总体能耗产生重大影响。这里的实例包括,用GPU而不是CPU运行可以高度并行的应用程序(有些程序可以在成千上万个处理器上同时运行,节省运算时间)。和CPU相比,GPU上的计算单元非常密集,可以同时执行很多任务,更适合并行计算,同时能耗更低。此外,还可以使用平衡了能耗和性能的ARM处理器,运行轻量级应用程序。但是,使用新的硬件需要对应用程序进行更深地研究和更细致的分级,在特定的应用程序和潜在的硬件资源之间建立联系。
云计算的实现需要多种基础设施的协同,这又需要建立一个灵活、全面、监控能力出色的云管理系统。作为最基本的要求,云管理系统必须要监测数据中心中正在运行的进程、硬件性能、运行状态、数据规模等多种信息。进一步,管理系统还要对分布在不同地理位置的数据系统进行优化,让不同的云设施合并。这些方法既需要单个数据中心中的软件和硬件实现良好的交互,也需要让全球各地的数据中心互换信息、负载和数据。
要实现这些目标还是要依靠网络,如果我们利用网络,就可以把计算资源和数据存储资源放在可以利用可再生能源或凉爽的地方,降低散热产生的能耗。当然,优化网络设备的同时也需要改进其他设备和组件。比如,数据和处理器距离用户很远且分布不均,会导致云服务的性能打折,而采用好的设备和云管理系统能降低网络流量,也就可以解决这个问题。除了改进数据中心,将数据中心整合到云计算概念里能在更大规模上提升能效。那时,用户将不再使用分离的计算系统,而是将彼此的计算需求进行合并,将应用程序转移至云端,这将比使用小型计算系统效率更高。
美国劳伦斯·伯克利国家实验室开发出的开源能效评估模型Cleer能对应用转移至云端的过程进行节能分析。Cleer估计,和现有的分布式使用商业软件(包括客户关系管理、生产和邮件软件)相比,云计算有可能把现在的能耗降低95%左右。此外,内容数字化也能极大降低能耗。例如,在视频行业中,通过云计算系统向用户提供视频的能耗比邮递CD和DVD要低15%。
灵活的云架构还能间接优化能源利用。比如,数据中心中用来调整硬件负载状态的技术还可以用来调节电网频率,这样电网就能保持在最优频率上,从而有助于能效在更宏观层面上的提升。此外,现代数据中心不仅消耗能量,还可以利用本身的发电机提供能量。这些方法不仅降低了数据中心的成本,还通过能量转移和降低电网负载节省了电力。
当然,最前沿的技术虽然能解决能效方面的挑战,但这些技术的应用往往比较缓慢。未来,研究人员既需要让能效解决方案照顾到云计算系统里的每个单元,也要让整个系统高效运行,这样才能解决云计算的能耗问题,云计算也才能让我们的世界变得更好。
请 登录 发表评论