Meta的AI大模型基础设施

作为Meta对未来AI的重大投资，我们宣布了两个2.4万卡GPU集群。我们正在分享有关硬件、网络、存储、设计、性能和软件的详细信息，以帮助各种AI工作负载提取高吞吐量和可靠性。这种集群设计被用于Llama3的训练。

我们坚定地致力于开放计算和开源。在Grand Teton、OpenRack和PyTorch的基础上构建了这些集群，并继续推动整个行业的开放式创新。

这一宣布是我们基础设施路线图的一步。到2024年底，我们的目标是继续扩大基础设施建设，将包括作为产品组合部分的350,000个NVIDIA H100 GPU，具有相当于近600,000个H100的计算能力。

引领AI发展意味着引领硬件基础设施的投资。硬件基础设施在AI未来扮演着重要的角色。今天，我们在Meta上分享两个版本的24,576 GPU数据中心规模集群的细节。这些集群支持我们当前和下一代AI模型，包括Llama 3， Llama 2的继承者，公开发布的LLM，以及GenAI和其他领域的AI研究和开发。

Meta的大规模AI集群
#

Meta的长期愿景是建立开放和负责任的AGI（general intelligence），以便每个人都可以广泛使用，并从中受益。在我们努力实现AGI的同时，我们也在努力扩展集群，以实现这一目标。我们在AGI方面取得的进展创造了新产品，为我们的应用程序家族创造了新的AI功能，以及新的以AI为中心的计算设备。

虽然我们在构建AI基础设施方面有着悠久的历史，但我们在2022年首次分享了我们的AI研究超级集群（ AI Research SuperCluster，简称RSC）的细节，该集群拥有16,000个NVIDIA A100 GPU。RSC通过帮助我们建立第一代先进的AI模型，加速了开放AI研究。它在Llama和Llama 2的开发中发挥了重要作用，并将继续发挥重要作用，以及用于计算机视觉、自然语言处理、语音识别、图像生成甚至编码等应用的先进AI模型。

揭开面纱
#

我们新的AI集群建立在RSC的成功和经验教训之上。我们专注于构建端到端的人工智能系统，主要强调研究人员和开发人员的经验和生产力。这些集群中的高性能网络结构的效率，一些关键的存储决策，结合每个集群中的24,576个NVIDIA Tensor Core H100 GPU，允许两个集群版本支持比RSC支持更大更复杂的模型，并为GenAI产品开发和AI研究的进步铺平道路。

网络
#

在Meta，我们每天处理数以万亿计的AI模型。大规模交付这些服务需要高度先进和灵活的基础设施。定制设计我们自己的硬件、软件和网络结构，使我们能够优化AI研究人员的端到端体验，同时确保我们的数据中心高效运行。

考虑到这一点，我们基于带有Wedge400和Minipack2 OCP机架交换机的Arista 7800构建了一个基于融合以太网（RoCE）网络结构解决方案的远程直接内存访问（RDMA）集群。另一个集群采用NVIDIA Quantum2 InfiniBand结构。这两种解决方案都将400 Gbps的端点互连起来。有了这两个，我们能够评估这些不同类型的互连在大规模训练中的适用性和可扩展性，为我们提供更多的见解，这将有助于我们在未来如何设计和构建规模更大的集群。通过仔细设计网络、软件和模型架构，我们已经成功地将RoCE和InfiniBand集群用于大型GenAI工作负载（包括在RoCE集群上正在进行的Llama 3培训），没有任何网络瓶颈。

计算
#

这两个集群都是使用Grand Teton构建的，这是我们内部设计的开放GPU硬件平台，我们已经为开放计算项目（OCP）做出了贡献。Grand Teton基于多代AI系统，将电源、控制、计算和结构接口集成到单个机箱中，以获得更好的整体性能、信号完整性和热性能。它以简化的设计提供了快速的可扩展性和灵活性，使其能够快速部署到数据中心中，并且易于维护和扩展。结合其他内部创新，如我们的 Open Rack电源和Rack架构，Grand Teton允许我们以一种专门为Meta当前和未来应用程序构建的方式构建新的集群。

从2015年的Big Sur平台开始，我们已经公开设计了我们的GPU硬件平台。

存储
#

存储在AI训练中扮演着重要的角色，但却是最少被提及的方面之一。随着时间的推移，GenAI训练工作变得越来越多，需要大量的图像、视频和文本数据，因此对数据存储的需求迅速增长。然而，将所有数据存储放入高性能且节能的需求并没有消失，这使得问题变得更加有趣。

我们的存储部署通过本地的Linux Filesystem in Userspace (FUSE) API解决了AI集群的数据和检查点需求，该API由Meta的“构造”分布式存储解决方案版本支持，该解决方案针对Flash进行了优化。该解决方案使数千个GPU能够以同步方式保存和加载检查点（对任何存储解决方案来说都是一个挑战），同时还提供数据加载所需的灵活且高吞吐量的exabyte级存储。

我们还与Hammerspace合作，共同开发并行网络文件系统（NFS）部署，以满足该AI集群的开发人员经验要求。Hammerspace的优点之一是，工程师可以使用数千个GPU对作业进行交互式调试，因为环境中的所有节点都可以立即访问代码更改。当组合在一起时，我们的构造分布式存储解决方案和Hammerspace的组合可以在不影响规模的情况下实现快速迭代速度。

GenAI集群中的存储部署，包括构造和hammerspace支持，都基于YV3 Sierra Point服务器平台，并升级了最新的高容量E1.S SSD。除了更高的SSD容量之外，还定制了每个机架的服务器，以实现每个服务器的吞吐量、机架数量和功耗之间的适当平衡。利用OCP服务器作为乐高积木，我们的存储层能够灵活地扩展到该集群以及未来更大的AI集群需求，同时对日常基础设施维护操作具有容错能力。

性能
#

我们在构建大规模AI集群时的原则之一是最大化性能和易用性，而不牺牲其中一个。这是创建一流AI模型的重要原则。

当我们不断挑战AI系统的极限时，我们测试自己扩展设计能力的最佳方式就是简单地构建一个系统，对其进行优化，并进行实际测试（虽然模拟器可以提供帮助，但它们也只能做到这一点）。在这个设计过程中，我们比较了小型集群和大型集群的性能，以了解瓶颈在哪里。下面图表显示了AllGather的总体性能（按0-100的标准带宽表示）。

与优化后的小集群性能相比，我们在大型集群上的开箱性能最初很差，而且不一致。为了解决这个问题，我们对内部作业调度器在网络拓扑感知的情况下调度作业的方式进行了一些更改——这带来了延迟方面的好处，并最大限度地减少了流向网络上层的流量。我们还结合NVIDIA集体通信库（NCCL）的变化优化了网络路由策略，以实现最佳的网络利用率。这有助于推动大型集群实现与小型集群一样的出色性能。

除了针对内部基础设施的软件变更之外，我们还与编写训练框架和模型的团队密切合作，以适应不断发展的基础设施。例如，NVIDIA H100 GPU开启了利用8位浮点（FP8）等新数据类型进行训练的可能性。充分利用更大的集群需要在额外的并行化技术和新的存储解决方案上进行投资，从而提供在数千个队列中高度优化检查点以在数百毫秒内运行的机会。

我们也认识到可调试性是大规模训练中的主要挑战之一。在大规模的情况下，识别一个阻碍整个训练工作的GPU变得非常困难。我们正在构建诸如设计调试或分布式集体记录器之类的工具，以公开分布式训练的细节，用更快更容易的方式识别出问题。

最后，我们将继续发展PyTorch，这是为AI工作负载提供动力的基础AI框架，使其为数万甚至数百，数千个GPU训练做好准备。我们已经确定了进程组初始化的多个瓶颈，并将启动时间从有时几小时减少到几分钟。