AI数据中心的下一路阻碍:冷却、水和工人
本文作者:鲍奕龙
起源:硬AI
AI算力扩张正将数据中心的基础设施矛盾推向新的临界点。电力之表,冷却系统、水资源亏损与劳动力短裙佚在成为造约下一轮数据中心建设的关键成分。
据硬AI,5月13日,巴克莱William Thompson团队研报指出,随着服务器机架功率密度急剧攀升,冷却系统的重要性已可与电力供给并列。
英伟达GPU机架功率密度从2020年的10-25千瓦/机架跃升至Blackwell架构的120-150千瓦/机架,并预计在2027年后的Rubin Ultra架构中突破600千瓦/机架,冷却系统是造约AI数据中心落地速度的主题变量之一。
(分歧英伟达显卡架构对应的服务器机架功率密度)
冷却系统约占数据中心构筑表壳本钱支出的10-15%,且这一比例仍在上升。与此同时,水资源的可获取性、以及劳动力欠缺,在共同重塑整个供给链的投资机遇与风险格局。
冷却是数据中心的主题基础设施
数据中心服务器性质上是"电力锅炉",险些所有流经IT设备的电能最终都转化为废热。冷却失效意味着机能降落、设备损毁甚至业务中断。
随着AI工作负载主导数据中心运营,冷却系统在本钱支出中的占比在上升。
巴克莱估计,冷却约占数据中心基础设施建设成本的10%至15%,并预计这一比例将随液冷架构的遍及持续扩大。
冷却系统的主题工作分为两步:首先是从芯片和服务器中提取热量,其次是将热量排放至表部环境。
(液体冷却+水冷式造冷机+湿式冷却塔系统的示意图)
前者可通过空气、液体或相变造冷剂实现;后者则蕴含直接排气、风冷冷凝或蒸发冷却等多种蹊径,其中蒸发冷却是数据中心直接耗水的重要起源。
一个普遍存在的投资者误会在于,将液体冷却等同于数据中心高耗水的本原。
巴克莱指出,液冷系统通常在封关回路中运行,冷却液一旦注入便持续循环,正常运营期间不产生净亏损。
事实上,液体冷却能够通过提高冷却液供水温度,在好多情况下削减甚至解除对蒸发冷却的依赖,从而降低直接水耗。
蒸发冷却才是直接耗水的主因,水在蒸发过程中吸收热量并以水蒸气大局消散至大气,形成持续性水资源亏损。
数据中心水足迹远超直接冷却耗水
数据中心的水亏损问题比通常认知的更为复杂。
据美国能源部数据,美国数据中心直接冷却水耗从2014年约210亿升增至2023年约660亿升,年均增速约12%至13%。
若数据中心容量持续扩张,美国能源部预测到2028年这一数字可能增至每年1450亿至2750亿升。
然而,直接冷却水耗仅是冰山一角。更大体量的耗水起源于支持数据中心运营的发电环节——燃气、燃煤、核能等热电厂均需大量冷却用水。
以2023年美国数据中心约176太瓦时的电力需要为例,对应的间接水耗靠近8000亿升。国际能源署(IEA)估计,全球数据中心综合冷却、发电及半导体供给链的年取水量约为5.2万亿升。
(基准情景下,国际能源署对数据中心用水量的预测)
Meta披露的数据颇具注明性:该公司2024年购电所嵌入的间接水耗超过720亿升,而直接现场取水量仅为56亿升,两者相差近13倍。
这一比例差距注明,数据中心运营商在评估水资源影响时,若仅关注现场水耗效能指标(WUE),将大幅低估其现实水足迹。
分歧发电技术的耗水强度差距显著,但随着电网持续去碳化,发电侧的间接水耗强杜仔望逐步降落。
传统煤电厂每千瓦时取水量约70升,部门老式核电站的一次性冷却取水量甚至超过每千瓦时100升;现代天然气结合循环电厂仅约10至12升;风能和太阳能光伏则险些不需冷却取水。
超大规模云厂商的冷却战术在分化
四大超大规模运营商在冷却战术上出现显著吩扃,这对设备供给商的选择拥有直接影响。
(超等云推算公司的用水效能指标对比)
微软已启用以风冷冷水机为主题的零蒸发冷却数据中心设计,指标是2030年前实现全球运营水资源"正效益",同时将WUE较2022年基准改善40%。
该公司2024财年水资源提取量同比降落约20%至约104亿升,WUE(水使用效能)为0.27升/千瓦时,较2022年基准提升18%。
Meta蹊径类似。Meta最新一代AI数据中心以直接液冷结合干式冷却器为主题,正常冷却过程中险些不亏损水资源。
只管2024年电力需要增长约21%,其取水量仅上升约7%至56亿升,WUE为0.19升/千瓦时,其Beaver Dam威斯康星州数据中心整年耗水量甚至少于两家餐厅的亏损。
谷歌的战术则显著分歧。巴克莱凭据谷歌披露的电力亏损与取水数据测算,谷歌有效WUE超过约1.3升/千瓦时,显著高于同业。
2024年数据中心取水量约420亿升,同比增长约27%,与其电力需要增速齐全同步。
谷歌对峙在低水资源风险地域部署蒸发冷却,理由是此举可降低电耗及有关间接用水和碳排放。
不外,谷歌在高水资源压力地域已烧毁蒸发冷却,蕴含亚利桑那州梅萨、乌拉圭卡内洛内斯和英国沃尔瑟姆十字镇的数据中心均选取风冷设计。
亚马逊方面,全球WUE 2024年同比改善17%至0.15升/千瓦时,AWS申明蒸发冷却可在夏季峰值期间降低25-35%的能耗。
亚马逊同样选取区域差距化战术,在高水资源风险地域预防水冷设计。
五大投资误区被逐一击破
汇报专门针对市场上普遍存在的认知谬误进行了纠偏,这对于评估有关设备企业的投资价值至关重要:
液冷≠用水多:如前所述,蒸发冷却才是重要耗水源;液冷反而有助于节水。浸没冷却并非终局:直接芯片液冷(D2C)已成为超大规模部署尺度;浸没冷却因运维复杂、OEM生态支持不及、两相系统面对PFAS监管压力等问题,仍属幼多规划。风冷不会隐没:除全浸没冷却表,网络设备、内存、存储等仍依赖风冷;液冷数据中心是混合架构,风冷将持久共存。(风冷式推算机机房空调系统示意图)冷水机需要未被颠覆:英伟达CEO黄仁勋"45°C供液温度无需冷水机"的表态被市场过度解读,导致HVAC设备股短暂承压。但在火热气象、季节性峰值及冗余需要下,冷水机仍不成或缺。同时,随着运营商从湿冷塔转向风冷规划,风冷冷水机需要有望进一步增长。(推算机房空气处置机组+C型水冷式造冷机+湿式冷却塔系统的示意图)LG Electronics预测数据中心风冷及液冷冷水机市场规模将从2026年的16亿美元扩张至2030年的127亿美元。余热利用难以规;菏芪露炔黄ヅ洹⑹姓协调复杂及本钱投入高档造约,余热回用重要在北欧区域供热系统中具备前提,不会成为冷却系统设计的主流考量。
劳动力欠缺:被低估的工期与成本风险
冷却系统的装置高度依赖现场专业技工,是数据中心各子系统中劳动密集水平最高的环节。
液冷回路或冷水机组的装置涉及复杂的泵、阀门、热互换器和定造管路网络,必要水管工、管路装置工、暖通空调技术员、焊工、电气工程师及调试工程师等多工种协同作业。
这与插接预造电力?榛蚍务器机架的尺度化作业截然分歧。
Crusoe是美国德克萨斯州阿比林星际之门项主张开发商,据该公司CEO Chase Lochmiller在斯坦福大学的公开演讲中披露,数据中心开发的劳动力成本约为每兆瓦470万美元,约占含自备电厂总成本的25%。
(Crusoe披露的数据中心建设成本占比)
他指出,星际之门工地日均工人数量约9000人,另一处德克萨斯州Claude项主张工人数量达3500人,超过该镇总人丁的两倍。由于项目地处偏远,Crusoe不得不从其他地域招募工人并提供大量留人激励。
劳动力欠缺带来多重风险与机遇:
文章点评
未查问到任何数据!
颁发评论
◎迎接参加会商,请在这里颁发您的见解、互换您的概想。