OpenAI 将通过最新的 DGX B200 平台利用 NVIDIA 的 Blackwell B200 数据中心 GPU 进行 AI 训练,本文将介绍DGX B200的一些规格信息。
DGX B200 #
DGX B200的电源要求 #
- 每个DGX B200系统有6个电源模块,其中至少5个模块需要运行才能让系统正常工作。
- 如果有1个电源模块故障,系统仍能继续运行。但如果有2个或更多的模块故障,系统就无法运行。这和是否有额外的备用电源无关。
DGX B200电源和散热规划 #
电路部署方式: #
每个机架使用两条电路,每条电路需要能够处理机架一半的峰值用电量,并且要考虑断路器的安全裕量。
额外散热设备: #
一些像 rear door heat exchangers 和 in-row coolers这样的额外散热设备通常不适合DGX B200系统。
DGX 超节点 #
- 每个48U/52U机架放置两个风冷的DGX B200
高密度部署的情况下,52U的机架可以放4个DGX B200
-
机间互联采用IB网络
-
IB结构决定了机架间电缆距离的要求
-
DGX 超节点最多可以有127个DGX B200,每32个是一个单元。