从“创客节俭风”到“高大上”——谷歌服务器的变迁

1999年

这种亲手打造硬件的方式,来源于谷歌从车库诞生时与生俱来的节俭风格。1999年,在谷歌的两位创始人Larry和Sergey的带领下,谷歌打造出了他们的第一台服务器产品。


这台机器有7英尺高,为省钱用软木做间隔。好在还比较稳定,可以四处移动,不会晃动。每个主板上可以连接四台电脑,机器的顶部有两个开关,用电缆将所有计算机联系在一起。这些机器并没有运行任何编码,只靠驱动运行。从这台机器起,谷歌一直保持着自己打造硬件的方式,这实在是一种便宜又聪明的解决办法。

搜索巨头谷歌可是个“服务器大户”,据说在谷歌的65个数据中心里共有20万-45万台服务器。谷歌的IT策略很有意思,先是购买商业服务器,再改造他们为自己所用,把性能压榨和发挥到极致,以致有时候他们热的像要融化了似的。“自己动手,丰衣足食”,这种方式既能满足谷歌的业务需求,又省了不少开支。因而谷歌的数据中心的规模越大,成本优势就越明显。

2009年

Google 也会玩DIY还玩得比我们凶!
服务器上装电池、使用技嘉主板、数据中心以货柜为单位,每箱里面有1160台服务器……在经济不景气当道的年代,Google要分享自家数据中心的省钱方式。

Google对于自家电脑计算一向口风很紧,但2009年首度在一场会议中做了展示,谈论有关数据中心用电效率的议题。
大部分企业都会跟诸如戴尔、惠普、IBM或Sun购买服务器。不过Google所拥有的数十万台服务器都是自己设计打造来的,Google认为这是公司的核心技术之一。参与过许多Google服务器设计的Ben Jai(翟本乔)则在众人面前展示一款现代的Google服务器。

Google的最大惊奇:每台服务器都有一颗12伏特电池,确保万一主断源断电时还可持续供电。Google也首度透露,从2005年起,其数据中心加入了标准运输货柜,每个都有1160台服务器,耗电量可达250 千瓦特(kilowatts)。
听起来似乎很极客的作法,不过对于现场许多以经营数据中心(动辄好几千台服务器)为生的专家而言,大家不仅对于Google这种内建电池的作法感到新奇,同时也对公司可保密这么久而啧啧称奇。Google从2005年就开始采用这种设计,至今已经是第六或第七代设计了。

Google对于节电性能方面十分在意,因此现在将自家经验公开分享。Google运营副总裁Urs Hoelzle表示,由于景气不佳导致企业预算紧缩、环保意识抬头、能源价格高涨等因素,现在是应该Google站出来多谈一点效率的时机了。

  內建电池有专利

Google也谈到一些数据中心议题,如电力传送、冷却、如何确保冷热空气不会混在一起。负责数据中心设计与性能评估的Chris Malone表示,Google的数据中心现在的性能已经达到环保局希望采先进技术在2011年才能达成的标准。

  为何要内建电池?
为何这种电池作法很重要呢?答案是金钱。
一般数据中心多倚赖称为不间断电源系统(UPS)的大型中控机型,这基本上算是大电池,会在主电力失效而发电机还来不及启动时,暂时协助供电。Jai表示,直接把电力内建到服务器比较便宜,而且成本能直接跟服务器数量相符合。
“这种作法比使用大型UPS节省得多。”他说,“如此也不会浪费多余的容量。”
效率也是另一个财务考量因素。大型UPS可达92-95%的效率,这意味着许多电力还是被浪费掉了。但Google采用的内建电池作法却好很多,Jai表示,“我们测量的结果是效率超过99.9%。”
Google服务器厚度3.5寸,2U(两机柜式),它有两颗处理器、两颗硬盘,采用技嘉(Gigabyte)主板有八个内存插槽。Google采用AMD与英特尔的x86处理器,且Google也在网络设备中采用电池设计,Jai如此表示。
效率很重要的原因不仅是可降低电费,且效率不佳还会制造多余废气,导致需要多花一笔钱来做冷却。
  货柜数据中心
Google对于电力效率的着迷还可从变压器设计看得出来。变压器会把AC交流电(墙壁插座)转换成DC直流电(电池电力),一般变压器会提供电脑5伏特与12伏特的直流电。Google的设计则只供应12伏特,只有在主板上做必要的转换。

Google数据中心效率逐渐提升

这会让每块主板成本增加1-2美元,但却很值得,因为如此供电不仅较便宜,且供电也可比较接近峰值容量,效率会更好。Google甚至还会注意以12伏特经由铜线导电会比5伏特来得有效率。


摄自Google在现场播放的数据中心货柜视频。跟一般数据中心一样,Google的货柜也有把地板提高。
  货柜服务器
一般人一次只会买一台电脑,但Google所思考的单位却很不同。Jimmy Clidaras透露,Google的数据中心核心是由标准1AAA货柜组成,每个货柜里有1160台服务器,每座数据中心都有好几个货柜。
这种模组化数据中心并非Google独家。包括Sun与Rackable Systems都有销售这种产品,但Google是从2005年就开始采用。
“10年前,那时要提供免费搜索就只能找很便宜的硬件,你买不起大型主机,因为那就完全没有获利空间了。”

2012年

Google公司第一次允许媒体记者进入其位于世界各地的数据中心进行参观拍摄,向世人展示其迷宫一样的世界。这些中心的处理器日以继夜地处理着全球网民的搜索请求、Youtube视频和邮件等。虽然公布的只是一些图片和非常有限的视频资料,且没有详细注释说明,但如古老的谚语所述:一张图片胜过千言万语,今天我们就这些有限的图片管中窥豹,更多的是猜测,分别从制冷、机柜、服务器、建筑等方面做一些最粗浅的分析以飨读者,并与同行们共勉。

制冷

从下图可以看到这个数据中心的冷站规模很大,整个房间管道林立,并且色彩斑斓非常好看。空调管道采用了Google企业标准色来区分不同管路的功能,比如绿色是冷却水回水管、黄色是冷却水供水管、蓝色是冷冻水供水管,深红色(或者冷机侧的粉红色管)是冷冻水回水管,白色的是消防管路等来区别不同的功能,以便运维人员快速定位并查找问题。还有在IT设备侧也采用同样五种颜色的网线等,加上不同数据中心不同主题的装修风格,这些都是数据中心颜色标识管理的典范。下图的左侧是大型冷水机组,右侧是板式热交换器,以便在室外温度较低时候采用板换散热实现水侧节能。Google也非常重视数据中心的耗水问题,据他们估算采用高效节能数据中心每年可节约几亿加仑的饮用水。

  还有一些运营中的小细节也考虑非常周全,比如管路屋顶等地方采用了很多的电动吊装葫芦链条方便重型设备的维护更换吊装,比如在管路底部采用了中间凹两边凸的滚轮型支撑,减少管路振动和拉伸形变产生的物理应力,比如楼层间的竖管采用了U型弯曲以便减少水温变化和建筑形变带来的隐形损伤,以及冷机周边地面的应急排水口,最后在偌大的机房中运营人员采用同样是Google标准色的G-bike用于现场巡视等运维和工艺细节。

微模块机柜

  下图为美国俄克拉荷马州的数据中心,整个机房在大量服务器LED指示灯的闪烁下显得非常整洁和梦幻。从这个整机房的俯视图看,数据中心采用了厂房式大开间框架结构,封闭热通道的一排排机柜构成庞大微模块阵列,机房顶部是供电网络桥架和消防管路,服务器和交换机的状态灯闪烁着,只有极少量的机房级照明。整个房间面积很大,走道以及顶部空间都非常宽敞,但设备区却较为紧凑,机柜间冷通道才两块砖多点的距离(标准砖宽度为600mm),其中热通道占用了大约两块砖的距离,而且服务器机柜的深度较短,也就一块砖多些。从图片较近处还可以发现有蓝色布帘密封的地方,空缺的位置是留给服务器机柜的,这也说明了Google的服务器部署是以机架为单位快速安装部署的。该蓝色布帘密封可以隔绝冷热气流的混合,减少冷量的浪费,体现了精细化运营的思想。高密度的服务器采用全正面维护,顶部为密集的TOR交换机单元。

  从这个图还可以看出Google采用创新的空调置顶散热方式,整个机房大环境作为冷通道提供冷量给服务器吸入,加热后的热空气在封闭通道内上升,然后通过热通道顶部的空调盘管制冷并被几个烟囱状导风管和大散热风扇重新循环回外部冷环境。这种空调置顶布局虽然存在着盘管漏水、更换维护较难等风险,对产品质量和施工工艺要求非常高,但是其气流组织较为合理,比如热气流自动上升,冷气流自动下沉,可以减少风扇的功耗,且机房大冷池环境可以作为缓冲池等,减少局部空调故障引发的热保护。据相关资料显示Google微模块的整个热通道温度非常高,像个大烤箱,温度可以达到49摄氏度,以至于一旦必须进去维护,那么服务器必须关掉才行。采用热通道封闭可以提供一个较为舒适的现场运营环境,热量只被限制在热通道中并被冷冻水带走,考虑大开间的铁皮厂房冷量密封保温特性不太好,但因为Google服务器的高温工作特性(如图中Google服务器的深度较短,大约只有600mm多的深度,散热会比较容易),送风温度高达27摄氏度,因此这个较高温度下的冷量传递损失不会很大,围栏效应的影响几乎可以忽略。

  从上面这张照片可以看到Google微模块热通道内部的一些细节,比如热通道宽度大约是两块标准地板砖,里边安装的是机柜顶部空调盘管的安装支架和加固支撑,通过地板底下的快接软管提供冷冻水给热通道顶部的空调盘管提供冷冻水。从冷冻水管的数量和密度上看,顶部空调盘管也做了模块化冗余设计,是个很不错的设计。服务器全正面维护,每台服务器采用三个分布式较大风扇散热,绿光来自服务器内部LED状态灯。Google自行设计的服务器采用尽可能少的能耗,并控制风扇转速足够低,只要服务器内部温度不要超过设定值就可以了,处处都体现节能。

Google在供电和制冷等方面总能打破常规,而没有采用商用的传统UPS和精密空调方案,体现了创新颠覆的思想,甚至如右边图Google还申请了三明治服务器的专利,采用液冷散热片,上下两个服务器靠此散热片内部的冷冻水以及循环风扇带走热量等。

  当然也不是Google的所有机房都采用这些创新的散热方案,比如一些网络设备间和POD小机房等,如下面的这两个例子。该网络设备间采用了传统的风管上送风或者地板下送风方式散热,双路冗余高可靠供电,但是在这些传统机房模块中Google都采用了简单低成本的塑料帘子隔离冷热通道方案,避免了冷热气流直接混合短路,也大大提高了其能源利用效率。据早期谷歌发布的一个POD机房优化视频中可以看到,通过对这些传统机房的精细化运营,比如机房CFD仿真改善气流组织、采用如上的冷热帘隔离、提高送风温度、安装了蓝色LED灯用于照明等等措施,使得PUE从原来的2.4降低到1.5以下,这也说明即便不用很多创新的思路,通过运营优化也可以实现较好的节能优化效果。

Google服务器

  步入Google的大型数据中心,整个机房的服务器阵列非常整齐壮观,海量的服务器风扇同时运转带来巨大的噪音,以至于进入数据中心必须佩戴防噪耳塞。从下图可以看到Google的服务器上架有两种配置方式,分别是低密的十五六台一个柜子,以及高密的每机柜接近三十台左右(可能采用类似facebook的1.5U高效风扇设计),TOR交换机置顶,PDU和网络快速接口都在左侧。每台服务器多含有2个或者更多的子机,服务器没有前面板也无上盖板成本更低散热更好,服务器通常很短,采用不同颜色的网线做功能区分,网线和电源线采用快插接口,plug and play.机柜底下滚轮设计方便整机架快速部署和搬迁,全正面维护,方便现场快速维修和免工具更换。

  从这些照片也可以看到不同版本不同类型的Google服务器设计,和早前发布的带铅酸电池服务器设计不一样,新版本的服务器结构更为方正美观,但即便如此这些自行打造的简单易维护服务器要比标准的商用服务器要便宜不少。尽管仍被视为互联网公司,Google已经成为世界上最大的硬件制造商之一, 因为它的设备多数是自己制造的。1999 年的时候,H?lzle从“三个开电子商店的家伙”那里买了 2000 个剥离下来的电路板。通过改造,去除不必要的部件,Google 构建了自己的服务器(DIY服务器的价格是1500 美元 ,而当时的商用机价格约为5000 美元),考虑到其上百万量级的服务器设备,那么DIY服务器带来的成本节约会是天文数字。由于DIY简单易维护设计,如果服务器出了故障,甚至可以免工具快速维修,如果实在无法维修则直接报废拆解成电子垃圾回收。且Google在定制的服务器内部安装了分布式的带电池UPS,可以省掉传统数据中心大量UPS的采购成本,并且采用该内置UPS可以实现供电效率99.9%,相比传统的UPS方案也可以实现数据中心总节能15%,在能源紧张运营电费高企的今天也是非常大的费用节省。

  为了统一管理自己的服务器,Google 开发了一个软件系统,开发者能够通过这个系统指挥数千个电脑, 如同一个计算机一样。在 2002 年的时候,它创造了 Google File System,可以在不同的机器上顺利地传送文件。MapReduce 是 Google 为编写云端服务而开发的系统,它的开源版本 Hadoop 已经成为业界标 准。另外,Google 还开发了一个自动化的决策系统 Borg,用于决定那条机器最适合某项任务。这对服务器集群的稳定性提出了更高的要求。为此,Google 内部有一个团队,叫做 SRE(网站可靠性工程团队),他们的任务就是使用各种方法,对服务器进行破坏,以检测公司进行危机处理的能力。每年,SRE 都会进行一次虚拟的战争,叫做 DiRT(disaster recovery test)。攻击是虚假的,但是几乎和现实一样,危机管理人员必须按照处理程序来做,如果他们不能找出处理方式,攻击就必须停止,以免影响到真正的用户。

  在Google公司内部的某个墙上展示着一排排的主板,那些代表着Google成立以来自己打造的不同时代的服务器,其中有一块标明着2008年7月9日,那是Google有史以来的第一百万台服务器,但这是个累计的数字,并不意味着那个时间Google已经拥有百万台服务器的规模。

数据中心建筑

  Google每个数据中心的选址都是非常谨慎的,以下图哥伦比亚河畔的Dalles数据中心为例,选择建设在河流旁边开阔的谷地,且可以看到其典型的建筑风格是大开间低层厂房结构,多为结构较为合理的长条矩形状,大型架空冷却塔和底下的储冷罐位于建筑边上,附近是两个为数据中心配套的变配电站。直接采用附近水电站便宜的绿色充足水电来给数据中心供电,空气质量很好。类似选址的还有比利时数据中心采用运河的水处理后来散热,以及芬兰湾哈米纳数据中心直接采用海水来给数据中心散热,而不像国内数据中心受限于种种原因大型DC多在沿海城市,气温及空气质量不好、电力容量少电费高、多层建筑租金昂贵等。

  Google的IDC选址多位于能源较为丰富,气候条件较好的地方,一则可以大量使用绿色低成本的能源,同时还可以利用较为优越的地理气候条件实现更为节能的自然冷却,目前其主流的数据中心年PUE基本可以达到1.2以下的很好水平。且数据中心和周边自然环境融合很好,比如数据中心周围倘佯的小鹿,漫山的野花,氤氲的冷却塔蒸汽,静谧的河流以及雪地垂钓等,都体现了人与自然的和谐相处。


发表评论

登录后才能评论
服务中心
服务中心
联系客服
联系客服
返回顶部