文|半导体产业纵横
“El Capitan”超级计算机开创了融合 CPU-GPU 计算的先河。
从劳伦斯利弗莫尔的专家处所知,从许多指标来看,El Capitan 可以与超大规模企业和云构建者为 AI 训练运行而启动的大型机器相媲美。El Capitan 是一台专门为运行有史以来最复杂、最密集的模拟和建模工作负载而定制的机器,它恰好在 GenAI 革命的核心——新型大型语言模型方面表现相当出色。
而且得益于 Cray 设计的“Rosetta” Slingshot 11 互连和惠普企业销售的 EX 系列系统的核心组件,El Capitan 已经采用了 HPC 增强型可扩展以太网,这与超级以太网联盟 (Ultra Ethernet Consortium) 试图推进的技术路线类似,因为超大规模企业和云构建者厌倦了为他们的 AI 集群支付 InfiniBand 网络的高昂费用。
劳伦斯利弗莫尔将获得一台极其强大的 HPC/AI 超级计算机,而其价格比如今的超大规模计算公司、云构建商和大型 AI 初创公司支付的价格要低得多。很难准确地说出两者之间的差异,但笔者初步粗略计算得出,El Capitan 每单位 FP16 性能的成本是 Microsoft Azure、Meta Platforms、xAI 和其他公司正在构建的大型“Hopper”H100 集群的一半。
国家安全至关重要,而某些技术突破和创新有着积极意义。以 El Capitan 为例,突破系统设计的架构极限意义非凡。同时,要有勇于在设计混合 CPU - GPU 计算引擎方面展现自身能力的决心,而且将超快的 HBM 内存接入到这些融合设备之间的共享内存空间,这一系列举措都能带来好处。最后,El Capitan 和超大规模企业、云构建者以及 AI 初创公司正在打造的强大机器之间存在着巨大的差异。
2019 年 8 月,惠普 (Hewlett Packard Enterprise) 获得了价值数百万美元的 El Capitan 合同,当时用户只知道这台机器将使用 Slingshot 互连,成本约为 5 亿美元,并提供至少 1.5 百亿亿次浮点运算的持续性能。就在几个月前,HPE 表示将以 13 亿美元收购 Cray。
无论如何,彼时El Capitan 的持续性能预计至少为 IBM 为实验室构建的 “Sierra” 混合 CPU - GPU 系统的 10 倍,功率范围达 30 兆瓦。2020 年 3 月,劳伦斯利弗莫尔宣称其正与 AMD 合作开发 El Capitan 的计算引擎,并进一步指出,该系统的峰值理论 FP64 性能将超 2 百亿亿次浮点运算(实际系统能够以 64 位分辨率进行计算),功耗约为 40 兆瓦,成本不超过 6 亿美元。
El Capitan 混合 CPU - GPU 系统已在劳伦斯利弗莫尔完成安装且近乎满负荷运行,人们公认这是世界上针对传统模拟和建模工作负载性能最优的系统,这其中包括中国 “天河三号”(2.05 百亿亿次浮点运算)和 “海洋之光”(1.5 百亿亿次浮点运算)超级计算机的峰值性能。
2022 年 6 月,劳伦斯利弗莫尔和 AMD 宣布将采用融合的 CPU - GPU 设备(AMD 数十年来一直将其称为加速处理单元或 APU)作为 El Capitan 系统的主要计算引擎。自那时起,众人皆在猜测 “Antares” Instinct MI300A 设备的时钟速度、设备中 GPU 计算单元的数量以及其运行时钟速度。事实证明,笔者认为 MI300A 的时钟速度会更高,因此只需较少的时钟周期即可达到相应性能。劳伦斯利弗莫尔所获得的机器性能比预期更优,因此其性价比甚至超出了预期水平。
劳伦斯利弗莫尔国家实验室利弗莫尔计算部门首席技术官 Bronis de Supinski透露,El Capitan 系统中总计有 87 个计算机架,另有数十个额外机架用于容纳其 “Rabbit” NVM - Express 快速存储阵列。
El Capitan 在液冷 Cray EX 机架中总共拥有 11,136 个节点,每个节点配备四个 MI300A 计算引擎,整个系统共有 44,544 个设备。每个设备都有 128GB 的 HBM3 主内存,由 CPU 和 GPU 芯片共享,运行频率为 5.2GHz,能够为 CPU 和 GPU 芯片提供总计 5.3TB / 秒的总带宽。
根据 11 月份 Top500 排行榜的数据,MI300A CPU 芯片组的运行频率为 1.8 GHz,而 AMD 规格表显示 GPU 芯片组的峰值运行频率为 2.1 GHz。该芯片组包含三个 “Genoa” X86 计算复合体,每个复合体具备八个核心,总计 24 个核心,系采用台积电的 5 纳米工艺蚀刻而成。MI300A 设备上的六个 Antares GPU 芯片组拥有 228 个 GPU 计算单元,总共包含 912 个矩阵核心和 14,592 个流处理器。在矢量单元方面,MI300A 的峰值 FP64 性能为 61.3 万亿次浮点运算,在矩阵单元上,其 FP64 性能为矢量单元的两倍,即 122.6 万亿次浮点运算。
每个 El Capitan 节点的峰值 FP64 性能可达 250.8 teraflops,当将所有节点连接在一起时,FP64 总性能可达 2,792.9 petaflops,前端配备 5.475 PB 的 HBM3 内存。在 CPU 和 GPU 计算芯片下方设有四个 I/O 芯片,用于将这些元件整合并连接至 HBM3 内存,这些芯片是采用台积电的 6 纳米工艺蚀刻而成。
值得注意的是,MI300A 封装上仍有六个计算芯片(在 AMD 术语中为 XCD),其与六个 GPU 芯片完美匹配。橡树岭的 “Frontier” 超级计算机定制的 “Trento” CPU XCD(单个芯片中每个节点八个)与四个独立的双芯片 “Aldebaran” MI250X GPU 的比例亦为一比一。这种一比一的封装形式在多代 Cray 超级计算机的 CPU 和加速器之间一直得以延续,这或许并非偶然。从某种意义上讲,MI300A 是一个六路 X86 CPU 服务器,与六路 GPU 系统板交叉耦合。
以下是一个汇总表,展示了 El Capitan 系统及其位于劳伦斯利弗莫尔的 El Capitan 区块的 “Toulumne” 和 “rzAdams” 芯片以及位于桑迪亚国家实验室的 “El Dorado” 系统的相关参数:
El Capitan 服务器节点的示意图如下:
如您所见,存在四个 Infinity Fabric x16 端口,其总带宽达 128 GB / 秒,以内存一致性方式将四个 MI300A 设备相互连接。
此外,还有四个端口,这些端口可配置为 PCI - Express 5.0 x16 插槽或 Infinity Fabric x16 插槽,在此情形下,它们被设置为前者,以便插入 Slingshot 11 网络接口卡,这些接口卡实际上通过 Slingshot 11 架构将整个系统中的 APU 相互连接。
最后,关于 El Capitan 系统有一个饶有趣味的观点,从技术层面而言,该系统用于运行对超级计算机进行排名的高性能 Linpack 基准测试的那部分机器,其性能可达 2,746.38 千万亿次浮点运算。(若物理机器上总计有 44,544 个 APU,此部分机器激活了 43,808 个 APU,占机器容量的 98.3%。)额定性能末尾的 46 千万亿次浮点运算(性能的第三和第四位有效数字)比 2024 年 11 月 Top500 榜单上除 34 台机器之外的所有机器都要大。当提及 “2.7 百亿亿次浮点运算” 时所舍弃的那些四舍五入数字,其规模几乎与巴塞罗那超级计算中心的 “MareNostrum 5” 超级计算机相当。
若劳伦斯利弗莫尔让 HPL 在系统中的所有 APU 上运行,El Capitan 的性能将再提升 1.65%,并且我们认为,计算、内存和互连相互作用的改进可使其性能再提高约 5%。倘若劳伦斯利弗莫尔能够将软件和网络调优性能提高 7.5%,那么该机器的峰值 HPL 容量将突破 3 百亿亿次浮点运算,我们期望实验室能够达成这一目标,毕竟这极具意义。这将是五年前项目启动时 El Capitan 最初预期性能的两倍 —— 且是按时按预算推进的。