新一代HPE Cray液冷服务器整机方案

作者:admin 来源:成都惠普服务器代理商 点击量:--


新一代HPE Cray液冷服务器整机方案


数据中心的空间一直都很宝贵,但如今,提高GPU和XPU计算密度的压力与日俱增——这不仅是因为空间成本高昂,更因为延迟的成本可能更高。计算引擎及其组件之间的距离越近,它们之间的延迟就越低,理论上,这些昂贵资源的利用率也就越高。


作为传统超级计算设备最大的OEM供应商,惠普企业(HPE)在构建高密度超级计算机方面有着自己的一套理念。这很大程度上得益于其对康柏、硅谷图形公司和克雷公司的收购,以及IBM退出高性能计算(HPC)市场。近年来,HPE也像其竞争对手Atos一样,推出了机柜尺寸远大于标准机架的系统。英伟达则凭借其基于“Oberon”机架的“Oberon”NVL72和未来的NVL144机架级系统,努力保持了标准数据中心机架的尺寸。这或许给HPE带来了压力,迫使其在提高密度的同时缩小机架尺寸。


HPE推出了新一代HPE Cray超级计算解决方案,旨在满足大规模人工智能在性能密度、效率和运维方面的迫切需求。HPE 最新推出的 Cray 平台将高性能计算 (HPC) 和人工智能 (AI) 整合到一个统一的架构中,能够大规模地提供确定性性能,并满足企业 IT 所需的运维控制。在发布该平台时,HPE 高级副总裁兼 HPC 和 AI 基础设施解决方案总经理 Trish Damkroger 强调,融合 AI 和 HPC 架构对于提高性能密度、推动科学技术进步至关重要。总而言之,HPE 的立场很明确:AI 和超级计算正在融合,HPE 致力于打造引领潮流的集成系统,从而推动研究和实际应用。


1.png


该平台早期取得的进展包括斯图加特大学高性能计算中心 (HLRS) 和巴伐利亚科学院莱布尼茨超级计算中心 (LRZ) 的青睐。它们的下一代系统,HLRS 的 Herder 和 LRZ 的 Blue Lion,都将采用 HPE Cray 超级计算机 GX5000。这些部署共同凸显了欧洲顶级高性能计算中心的发展势头,它们正寻求利用生产级高性能计算的严谨性来扩展人工智能驱动的发现。


此次扩展是在上个月推出的 HPE Cray 超级计算机 GX5000 的基础上进行的,GX5000 专为 AI+HPC 集成时代而设计,现在又新增了 HPE Cray 超级计算存储系统 K3000。K3000 的显著特点是首款预装嵌入式 DAOS(分布式异步对象存储)开源软件的工厂预装存储系统,旨在为 I/O 密集型 AI 和仿真工作负载提供持续的性能支持。


2.png


HPE 推出三款全新计算刀片服务器,可灵活组合部署于 HPE Cray GX5000 机架。Cray GX5000 机架的功耗为 400 千瓦,尺寸为 2045 毫米(高)x 900 毫米(宽)x 1200 毫米(深),体积为 22.1 亿立方毫米,在功耗基本相同的情况下,体积减少了 56.8%。


GX5000 最多可支持 40 个仅包含 CPU 的计算刀片,最多可支持 28 个采用“Venice” Epyc CPU 和“Altair” MI400 GPU 的 AMD CPU-GPU 刀片,以及最多可支持 24 个采用“Vera” Arm CPU 和“Rubin” R200 GPU 的 Nvidia CPU-GPU 刀片。


HPE GX5000 设计的巧妙之处在于,一排八个机架只需两个液冷侧柜,而 Nvidia Kyber 机架则需要一对一的液冷侧柜。


3.png


目前,HPE 为 GX5000 机架推出了三种不同的计算刀片:


4.png


GX250 是一款仅包含 CPU 的刀片服务器,它将搭载 AMD 未来的“Venice”Epyc CPU。具体来说,它将配备四颗 SP7 双路 Venice 处理器。Venice 处理器的具体规格尚未公布。以下是GX250刀片机械结构的放大图:


5.png



每个刀片服务器上有 8 个 Venice CPU,一个机架服务器有 40 个刀片服务。假设我们根据 McNamara 在演讲中的说法计算无误,那么一个 GX5000 机架服务器将拥有超过 55,000 个 Zen 6 核心,近 82,000 个 Zen 6c 核心。

GX350a刀片服务器将用于未来的Discovery超级计算机,该超级计算机的招标于2023年10月启动,并于上个月由美国能源部授予HPE。该刀片服务器将搭载一颗Venice处理器——我们推测是Zen 6架构,而非缓存只有一半但核心数翻倍的Zen 6c版本——作为内存一致性域的宿主机和组成部分,并配备四颗Altair Instinct MI430加速器。


关于明年即将推出的MI430X加速器,目前所知甚少,只知道它将更侧重于FP64双精度浮点运算,而非AMD预计明年推出的MI455X GPU所强调的用于AI计算的FP4和FP8格式。我们已知的是,HPE Cray刀片服务器中使用的Venice处理器功耗为600瓦,而MI430X的功耗为2000瓦,仅刀片服务器的计算引擎就需要8600瓦的功耗。

以下是GX350a刀片的机械结构:

6.png

GX440n 刀片服务器,它基于英伟达“Vera”CV100 Arm 服务器 CPU 和“Rubin”R200 GPU,英伟达以 1 对 2 的配置出售这些服务器,就像之前基于“Grace”CG100 CPU 和“Blackwell”B200 GPU 的计算复合体一样。

7.png


GX440n刀片服务器配备四个Vera-Rubin计算单元,其尺寸远小于Grace-Blackwell单元,每个刀片服务器包含四个CPU和八个GPU。每个GX5000机架配备24个GX440n刀片服务器,这意味着每个机架可容纳48个CPU和192个GPU,其CPU和GPU密度远高于AMD刀片服务器——准确来说是高出1.71倍。我们对此感到疑惑,就此询问HPE时,并未得到明确的答复。

以上所有刀片服务器均可配备四个或八个 400 Gb/秒的 Slingshot 网络接口,并附带两张用于本地存储的 E1.s 标准闪存卡。GX5000 机架的刀片服务器机箱(可能位于机架后部)可容纳 8 个、16 个或 32 个 Slingshot 交换刀片服务器,每个刀片服务器配备一个支持 64 个端口的单路交换 ASIC。

HPE Slingshot 400 现已面向 HPE Cray 超级计算 GX5000 集群推出,它采用直接液冷式交换机刀片架构,专为高密度部署和在 AI+HPC 复合负载下保持持续吞吐量而设计,从而提升了互连架构的性能。每个交换机刀片提供 64 个 400 Gbps 端口,并且机箱级配置支持:8 台交换机,每台 512 个端口16 台交换机,共 1204 个端口32 台交换机,共 2048 个端口Slingshot 400 于去年首次发布,旨在充分利用 GX5000 的高性能拓扑结构,在降低延迟、提升持续带宽和增强可靠性的同时,保持成本控制。对于多租户环境和混合工作流程,该组合旨在实现大规模、可预测的性能。



成都惠普HPE总代理 - 成都强川科技有限公司,一直以客户需求为导向,不断提供最新更全的惠普HPE服务器、惠普工作站、存储产品以及最新最潮的增值应用解决方案,并且支持个性定制。了解更多产品信息及最新促销信息,可拨打客服专线028-85024766/18215624006或登录成都服务器官方网站www.hpedl.com,与西部地区惠普HPE产品用户共同见证卓越

热门文章