生成式AI革命正在重塑所有行业,并重新定义日常生活方方面面的可能性。创新的快速步伐给数据中心基础设施带来了重大挑战,包括:
- 由于需要LLM(大型语言模型)同时处理大量多模态数据集(文本、图像、音频和视频),因此对AI处理资源的需求激增,这些资源必须在整个数据中心相互连接
- 由于生成式AI应用的多样性和定制化,大量的平台架构正在以显著加快的年度升级节奏部署
- 因为云计算供应商面临着巨大的财务压力,需要为大规模的资本支出提供可观的投资回报率,所以要求部署AI基础设施的利用率达到最大化
要满足现代AI模型的计算需求,只能将数千个GPU或AI加速器与专门为AI工作负载构建的专用网络/结构互连在一起。该网络通常称为“后端”网络,由“向上扩展”的加速器集群结构和“向外扩展”的网络结构组成。“向上扩展”结构通常是一种任意对任意的网状互连,针对最大吞吐量和紧密耦合加速器的能力进行了优化,以快速交换AI模型训练/推理数据。“向外扩展”的例子包括NVLink、Infinity Fabric、PCI Express®(PCIe®)、以太网等。这些技术用于连接多达数百个加速器。
PCIe接口在AI加速器和GPU上是原生可用的,一些AI平台还利用PCIe或基于PCIe的协议来扩展结构。随着AI集群的规模从1-2个机架、数十个GPU扩展到跨越多个机架、数百个GPU的大型pod,互连长度迅速成为限制。在PCIe 5.0数据速率下,跨度达7米的有源电缆足以连接几个机架。然而,在更高的数据速率,如PCIe 6.x和PCIe 7.x,对于跨多个机架的GPU集群,需要光解决方案。
我们很高兴能够继续Astera Labs在PCIe连接解决方案方面的领先地位,通过展示端到端PCIe/CXL®用于GPU集群的光学器件,为扩展生成式AI基础设施照亮了前进的道路!
应对AI互联的日常挑战 #
自2017年以来,Astera Labs一直专注于释放AI和云基础设施的全部潜力,不断推出率先上市的高度创新的连接解决方案。我们的智能连接平台的基础是基于PCIe®,CXL®和以太网半导体的解决方案,以及我们的COSMOS软件套件的系统管理和优化工具。该平台提供了可扩展和可定制的软件定义架构。
面对生成式AI基础设施建设的主要挑战,所有主要的超大规模企业和AI平台供应商都使用我们的智能连接平台,该平台已被证明:
- 提供远距离和规模化的可靠连接,包括芯片对芯片、盒对盒、机架对机架;现在,我们提供了将其扩展到通过光学器件的PCIe到行的能力,以加速必须跨数据中心扩展的最大GPU集群的部署
- 通过我们的软件定义架构和对云规模的前期互操作性测试的巨大投资,加快了各种AI平台的部署时间
- 通过深度诊断、遥测和车队管理,实现对不断增加的连接链路的前所未有的可见性,从而最大限度地延长了昂贵的AI基础设施的正常运行时间和系统利用率
支撑我们智能连接平台的产品系列包括:
- Aries®PCIe®/CXL®智能DSP retimer经过现场测试,所有主要的超大规模厂商和平台供应商都广泛部署。我们的第三代Aries 6 Retimers将带宽提高了一倍,达到每通道64GT/s。Aries PCIe/CXL智能电缆模块™(SCM)提供业界首创的7米有源电缆,用于机架到机架的PCIe连接
- Taurus以太网智能电缆模块(SCM)支持每通道高达100Gb/s的以太网速率,支持交换机到交换机和交换机到服务器连接应用中坚固、纤薄和灵活的电缆
- Leo CXL®智能内存控制器是业界首个支持CXL®内存扩展、池化和共享的解决方案。经过优化,可以在低延迟下满足生成式AI工作负载不断增长的计算需求
我们在技术周期的早期引入、提供解决方案以最大化平台利用率方面有着丰富的历史。这包括首次上市的PCIe和CXL®解决方案,以及全面的云规模互操作实验室的扩展,这使我们有信心大规模部署先进的解决方案。
无缝AI连接的新范式 #
随着AI基础设施的扩展超出了单个机架的范围,并且超出了传统无源直接连接电缆(简称DAC)的范围,必须开发新的连接解决方案。更高速度下的信号丢失也限制了无源解决方案的有效性,要求新的有源电缆具有更好的覆盖范围和路由,以补充无源解决方案。
Aries PCIe/CXL®SCM™通过有源电缆(简称AEC)提供7米的覆盖范围,解决了DAC的限制。这些具有低延迟的经济高效的AEC使细布线能够轻松扩展到机架以外的AI加速器集群。
随着数据速率增加到PCIe 6.x (64GT/s), PCIe 7.x (128GT/s)及以上,传统的无源和有源电缆将仅限于单个机架。新的解决方案,如PCIe over optics,包括有源光缆(简称AOC),将在机架到机架的连接中发挥更大的作用,以维护和发展这些AI集群。
PCIe光连接 #
光纤链路已经成为高速以太网连接的骨干,提供长距离数据连接,覆盖超大规模数据中心。这些优势可以通过开发新的PCIe over optics解决方案(包括AOC)应用于PCIe连接,与铜缆相比,该解决方案将PCIe连接扩展到机架集群,并改进了电缆管理。
PCIe/CXL®在光学器件上的应用通常是由相对于以太网的低延迟需求驱动的,例如缓存一致内存事务和GPU之间的并行处理工作负载。这些应用还要求通过使用专门的软件对链路进行全面管理,以确保完全符合协议和可靠性。
Astera Labs提供经过现场验证的软件定义连接解决方案,开发了多代PCIe规范,可以通过光学无缝集成PCIe。我们已经在端到端、完全兼容的链接连接中演示了这一点,这些连接代表了AI基础设施部署用例。基于光连接的PCIe 演示包括一个CPU作为RC连接到一个目标GPU和一个目标远程分解内存系统。首次在多个设备之间演示一个长距离、完全兼容的PCIe光学链路的能力,为高速PCIe光学等新产品铺平了道路。此外,该解决方案利用COSMOS软件套件的综合诊断、遥测和车队管理功能,有助于加快部署时间,并促进优化基础设施利用率。
总而言之,Astera实验室将继续创新和执行新的连接解决方案,以支持AI平台的加速部署,促进下一代生成式AI应用程序的快速发展。利用通用COSMOS软件套件的软件定义架构提供解决方案,实现灵活可靠的连接,跨越芯片到芯片,箱到箱,机架到机架,现在,通过光学器件的PCIe演示,跨数据中心的行到行应用程序。
这对于超大规模企业和AI平台供应商来说是有价值的,因为基础设施管理的诊断和遥测集成是一项重大投资,可以充分利用最新的基于光连接的PCIe技术。我们很高兴成为第一个展示完整的端到端光学演示的公司,使用基于PCIe的光模块将PCIe 5.0 GPU和CXL 2.0内存扩展器连接到RC。