随着云计算和大数据技术的蓬勃发展IT设备性能逐步提高直接导致服务器功耗不断增加,特别是作为服务器关键部件的CPU,随着性能提升功耗增加非常显著。常见的机房制冷主要依靠空气冷却来实现为服务器降温的目的,已不能满足高功率密度设备的要求。数据中心冷却技术的解决方案逐渐向电子设备越来越靠近。从房间移到了机柜列,从机柜列到机架和柜门进行热交换,到如今在服务器内部冷却芯片等设备。贴近热源,就近制冷成为技术发展趋势,随着芯片冷板及冷却液强化换热的技术发展完善,液冷成为业界新一轮的热点。
一、液冷的原理和三种形式
根据目前技术进程的研究,根据冷却原理,将液冷技术主要分为冷板、浸没和喷淋三种主要形式。
冷板式液冷技术研发初衷是为了避免冷却液与服务器直接接触,该种技术针对主要发热源CPU和内存等部件进行精确制冷。液冷通道由水冷型热管散热器、液冷分配单元、液冷维护单元、液冷温控单元、自然冷却单元、一次/二次冷却环路的管路等构成。在冷板式液冷系统中,CPU等大功耗部件采用液冷冷板散热,其他如硬盘、接口卡等少量发热器件仍采用风冷散热系统。
冷板式液冷技术是在常规风冷服务器基础上,CPU和内存侧紧贴一块板式换热器,芯片的热量通过热传导至板内流体,流体为绝缘介质,可为去离子水、乙二醇溶液、氟化液等、或相变的热管(热管通过换热器将热传导至机房外水系统)。冷却的板片与服务器的PU/GPU(高热流密度元件)通过直接接触将服务器的主要热量带走(冷板内有热管和液体散热两种形式),其余部件(低热流密度元件)热量可通过较高温的风带走,我们把这种由液冷和气冷结合的散热技术称为液/气双通道散热技术,原理如图1所示。图2所示为冷板式服务器外形。
该技术相对于传统的机架式风冷服务器,资源利用率得到显著提升,在减少总体拥有成本的同时,显著增加了数据中心的能源利用效率。而且服务器安装维护与常规风冷服务器基本一致,故该种液冷技术的运维难度基本和传统行级空调一致。 浸没式液冷根据冷却工质换热过程中是否相变,可分为相变浸没式液冷和非相变浸没式液冷技术。
非相变浸没式液冷技术原理是将IT设备直接浸没在绝缘冷却液中,冷却液吸收IT设备产生的热量后,通过循环将热量传递给热交换器中的水,然后通过水循环将热量传递到室外散热装置。该技术由于服务器无风扇设计,噪音更低,噪音值可控制在45dB以下,同时省去了风扇功耗,服务器整体耗电降低10%以上。如图3所示为浸没式液冷原理图(非相变)。
相变浸没式液冷技术原理是将IT设备浸没在沸点低于IT设备工作温度的冷却工质中,当IT设备的运行温度达到冷却工质沸点时,会引起冷却工质的局部沸腾,冷却工质沸腾的过程中带走IT设备运行时产生的热量。如图4浸没式液冷原理图(相变)。
浸没式液冷具有明显的优势。首先,在浸没式液冷中,冷却液与发热设备直接接触,具有较低的对流热阻,传热系数高;其次,冷却液具有较高的热导率和比热容,运行温度变化率较小;再次,这种方式无需风扇,降低了能耗和噪音,制冷效率高;最后,冷却液绝缘性能优良,闪点高不易燃,且无毒、无害、无腐蚀。所以该液冷技术适用于对热流密度、绿色节能需求高的大型数据中心、超级计算、工业及其他计算领域和科研机构,特别是对于地处严寒、高海拔地区,或者地势较为特殊、空间有限的数据中心,以及对环境噪音要求较高,距离人群办公、居住场所较近,需要静音的数据中心具有明显的优势。 喷淋式液冷系统采用某种冷却液并通过冷却液直接或者间接吸热带走器件所释放的废热至IDC外部环境进行集中散热的散热形式。喷淋式液冷主要特征为绝缘非腐蚀特性的冷却液直接喷淋到发热器件表面或者是与发热器件接触的扩展表面上吸热后并排走,排走的热流体通过直接与间接与外部环境大冷源进行热交换。
喷淋式液冷是指对IT设备进行改造部署相应的喷淋器件。在设备运行时,有针对性地对发热过高器件进行冷却的一种液冷实现方式。这种方式的特点是不需要对机房基础设施做太大的改动,只需要对服务器进行少量的改造就能实现较好的冷却性能。喷淋式液冷机柜系统包括喷淋式液冷机柜系统(含管路、布液系统、回液系统和PDU等部件)、液冷服务器、冷却液3部分。喷淋式液冷机柜通过管路与室内热交换器相连接,即机柜内芯片的废热被冷却液吸收后传递到到室内热交换器并与室外热交换器进行换热。如图5为喷淋式液冷系统工艺流程原理图。
喷淋液冷系统具有器件集成度高、散热效率强、高效节能和静音等特点,是解决大功耗机柜在IDC机房部署以及降低IT系统制冷费用,提升能效,降低TCO的有效手段之一。 将几种液冷形式进行比较,如表1所示。目前,冷板式液冷和浸没式液冷较为常用,喷淋水液冷应用较少。现将冷板式和浸没式液冷的技术难点和风险进行比较分析,如表2所示。
上述三种液冷形式,冷板式液冷的应用最为广泛。在设计时可以分为两大类,一种是在机柜外部部署冷却液分配单元(CDU),另一种是无冷却液分配单元(CDU)的形式。
下面对这两种不同的实现以及设计的一些注意事项进行详细描述。 数据中心内最常见的液体冷却实施形式是使用CDU将设施冷却系统(机房外散热侧)与机柜冷却系统(机房内散热侧)分开。无需将敏感的IT冷却组件暴露在设施冷却系统中。CDU可以位于IT机架内,以将液体分配到单个机架内的设备,也可以安装为将液体分配到多个机架的落地式外部单元。图6显示了一个基于CDU的液体冷却装置的示例。
CDU除了起到循环冷却液的作用外,还将热量从机柜冷却系统传递到设施冷却系统。通过将冷却液调节至高于室温露点来防止设备内产生冷凝水。并且可以提供灵活多样的冷却液温度满足不同IT设备的要求。 在冷板式液冷系统中,CDU起着至关重要的作用。如果CDU出现故障,那么整个制冷系统都将面临瘫痪,因此CDU的设置须考虑冗余或容错。CDU中的冷液泵最有可能发生故障,所以应设置冗余泵。并配有切断阀,保证可切断不能正常工作的水泵,实现可在线维护。CDU的电源也需要用UPS电源,使其实现不间断运行。
调节温度是CDU的主要功能之一,可通过使用旁路回路,比例控制阀、变速泵等来控制CDU提供的供水温度,以响应设备水温和热负荷的变化。供水温度除了设定上限值(可以安全地向IT设备提供的最高供水温度)外,也要设下限值(可以安全地向IT设备提供的最低供水温度),该极限本质上可以是动态的,并且取决于冷却空间内的露点。CDU负责监视环境露点,并将辅助水回路的供应温度提高到比房间露点温度高出至少2℃的水平,以防止冷凝现象发生。 如今,大多数数据中心的液冷设备都是通过CDU实现液体冷却的。但无CDU的液冷形式在一些方面也具有一定优势。首先,减少了主机房内的空间占用面积;其次,无中间换热环节以及减少了输配系统的能耗,系统能效更高;最后实现了热源与最终散热介质的紧密耦合,提高了冷却液的温度,同时降低了设备的工作压力,也避免了冷凝现象。
图7为无CDU的液冷系统示意图,该系统将冷冻水直接输送到IT设备内。ITE表示信息技术设备(通常是服务器硬件),RFU表示机架过滤单元,FFU表示设施过滤单元。
非CDU液冷服务器材料的腐蚀和结垢问题可以通过使用与各种水性成分化学不相容的材料来解决。ASHRAE在《数据通信设备中心液体冷却指南》第二版(ASHRAE2014)[4]的第5章中提供了关于使用的设备材料的最佳实践和原理的论述。
在非CDU设计中,设施设计团队必须与IT设备制造商紧密合作,以确保为整个液冷系统选择合适的材料。
非CDU冷却系统同样要求在供水上游侧进行过滤。可以为机架级过滤单元或设备级过滤单元,旨在为液冷系统的设备和管道提供终端过滤。如今,电子冷却中最常用的液体传热设备是微通道冷却板。这些设备使液体冷却剂通过高效的通道来最大程度地利用液体冷却剂的热量密度(比热)。这些液体散热器上的典型散热片间距通常不到十分之几毫米,由于传热表面通常尺寸非常狭窄。在冷板设计中减小翅片间距的尺寸通常会导致优异的传热性能,但是对于数据中心水系统的洁净度来说也是个挑战。因此必须在数据中心运营商和液冷服务器厂商之间进行充分沟通。
这些冷板和内部管道结构对水质更敏感,例如可能会发生腐蚀,结垢和微生物。指南ASHRAE 2014第6章比第5章的要求更严格。表3所示为水质要求的对比。对于非CDU的液冷系统设计时要参考第6章,而含CDU液冷系统设计时要参考第5章内容。如果将机柜冷却系统的水质要求含CDU的液冷系统,会造成不必要的大量的成本提高。同样,将设施水质要求应用于无CDU液冷系统时,由于水质要求低得多,将会带来巨大风险。在使用时,两者经常被误用,设计时应该着重区分开。
液冷相关技术的应用将是未来数据中心能效提升的重要途径,是数据中心重要的发展趋势之一。目前,应用最多的是冷板式液冷,虽然热交换效率比风冷式技术高,但是相比于接触式液冷技术(如浸没式液冷、喷淋式液冷)仍显不足。而浸没式液冷技术应用中,液体冷却剂是最为关键的因素之一。目前,国产氟化冷却液已经能够实现国产替代。通过对合适冷却液及相关适配技术的开发,解决高性能计算中心的发展瓶颈是目前数据中心研发的重要课题。 液冷数据中心冷却液的较高温度使得余热的高效利用成为可能。传统数据中心对于余热的利用效率不高,液冷数据中心可以提供更高温度的余热,充分利用这些余热实现供暖、提供生活热水等,有效的减少了供热设备的能耗,大大的降低了更多建筑或者整个园区的碳排放。相信在未来,液冷技术会和余热利用充分耦合,实现更广义的节能降碳。