2024-05-30
人工智能训练集群具有独特的要求,与传统数据中心部署X86架构服务器的典型硬件的要求不同
首先,模型训练数周或数月,网络连接数据端要求为内网或专网。人工智能训练集群基本上可以部署在世界上任何低成本的地方。
然后人工智能训练非常耗电,并且与传统的非加速超大规模或企业工作负载相比,运行人工智能硬件的功率水平往往更接近其热设计功耗 (TDP)。此外传统X86和存储服务器的整机功耗约为 1kW,但每个 AI 服务器的功耗现在已超过 10kW。这意味着提供大量廉价电力对于人工智能更加重要。
另一方面,推理最终的工作量比训练更大,但它也可以相当分散,芯片不需要集中管理。
人工智能数据中心规划和布局
虽然 DGX H100 服务器需要 10.2 千瓦 (kW) 的 IT 电源,但大多数托管数据中心仍然只能支持每个机架约 10 千瓦的电源容量,尽管典型的超大规模数据中心可以提供更高的电源容量。
因此,服务器部署将根据可用的电源和冷却能力而有所不同,在电源/冷却受限的地方仅部署 2-3 台 DGX H100 服务器,并且整排机架空间闲置,以将电力传输密度从 12 kW 翻倍至 24 kW。托管数据中心。实施此间隔也是为了解决数据中心托管区域单位空间内的制冷量不够的问题。
随着数据中心的设计越来越考虑人工智能场景,机柜将能够通过使用专用设备增加气流来利用空气冷却来实现 30-40kW+ 的功率密度。未来使用直接芯片液体冷却为更高的功率密度打开了大门,通过消除风扇 功率的使用,并通过减少或消除对环境的需求。
每个机架功率密度更多地是由网络、计算效率和每次计算成本等因素决定的
大多数现有托管数据中心尚未准备好支持每机架 20kW 以上的机架密度。某些超大规模和托管服务商直接陷入数据中心容量瓶颈,因为它们在人工智能方面措手不及,尤其是在托管数据中心内,以及功率密度不匹配,其中传统托管中的15kW功率将成为实现AI超级集群理想物理密度的障碍