欢迎访问ic37.com |
会员登录 免费注册
发布采购

每年更新换代一次,英伟达x86和Arm两头抓

日期:2022-5-25 (来源:互联网)

英伟达还为数据中心发布了四个Grace参考设计,即面向云游戏的CGX、面向数字双胞胎和Omniverse的OVX,用于HPC或HGX用于AI训练推理。英伟达的GPU以前是风冷散热的,但这一次英伟达决定尝试液体冷却和冷却数据中心最热的A100。

经过一系列的收购,AMD现在在计算引擎上有了相当多样化的产品解决方案,包括CPU、GPU、AI引擎、FPGA和DPU等。然而,仅从数据中心的布局来看,英伟达显然更加激进。在今年的Computex上,英伟达展示了他们在数据中心市场的雄心壮志。

Grace和Hopper每年升级

与发布消费级CPU的AMD不同,英伟达在Computex上的内容更像是toB,尤其是数据中心。今年年初,英伟达发布了一系列数据中心产品,如GraceCPU、HopperGPU等,支持不同的配置选项,给极高的灵活性。作为CPU+GPU配置的忠实支持者,英伟达计划将这一战略政策贯彻到底。

在Computex上,英伟达宣布其数据中心产品将每两年更新一次架构,每年更新一批产品,一年为arm,一年为x86。同时,英伟达还为数据中心发布了四个Grace参考设计,即面向云游戏的CGX、面向数字双胞胎和Omniverse的OVX,用于HPC或HGX用于AI训练推理。

CGX集成了GracesuperchipCPU。虽然用于云游戏场景,但这种设计并没有集成英伟达的消费级GPU,而是采用了A16GPU作为虚拟桌面VDI应用。这种选择也很容易理解。云游戏追求高密度、低拥有成本,A16GPU可以完善这一要求。

OVX支持多种英伟达GPU,因为数字双胞胎的工作负verse的工作负载是不同的,小到复制一个物体,大到整个地球的数字孪生。同样,为了减轻网络计算的压力,CGX和OVX都使用bluefield-3DPU。

HGX有两种类型,一种是HPC,另一种是AI训练和推理。前者的瓶颈主要在CPU上,所以只配置了GraceSuperchipCPU,而后者需要CPU+GPU的强力合作。因此,选择了GraceHoppesuperchip。另外,由于HPC领域的很多客户都使用OEM定义的IO系统,所以没有绑定自己的NVLink。

不过Grace和Hopper要想量产到明年,今年数据中心的主角无疑是A100,而这次A100也迎来了更新。

GPU在数据中心也需要液冷散热

在数据中心,有这样一个指标,称为powerusagefectivenenes功耗效率,简称pue。pue等于数据中心的总能耗/IT设备能耗,总能耗包括散热、配电等系统的能耗。因此,pue值越接近1,数据中心的能效水平越高。有很多方法可以降低这个指标,其中之一就是从散热开始。

改善散热的一种方法是改善数据中心的散热系统,另一种方法是改善it设备本身的散热系统。英伟达的GPU以前是风冷散热的,但这一次英伟达决定尝试液体冷却和冷却数据中心最热的A100。

Equinix率先测试了A10080GBPCIeGPU的液冷版本,并与A100的风冷版本进行了比较。在比较过程中,单个液冷机架的功耗达到30kW,是15kW风冷机架的两倍。但是由于液冷A100只需要占用一个PCIe插槽,而风冷A100需要两个,所以计算资源可以放置在同一个空间内。

最终的结果是,采用液冷的A100机架数量可以减少到三分之一,功耗也减少了28%。正是因为这种散热节能,液冷A100将PUE从1.6降低到1.15。显然,各国的能效方案已经开始向数据中心展望,英伟达也必须紧跟这一节能减排趋势。HGXGrace和HGXGraceHopper,将于明年正式推出,还将推出风冷和液冷版本。

顶配AMR

为了推广其ADM3315EARUZ-REEL7机器人仿真和数据生成软件ISACSim,英伟达还发布了更多关于其ISACNovaOrinAMR机器人开发套件的信息。该设计集成了两个JetsonAGXOrin芯片,配有两个立体镜头、两个广角镜头、两个2D雷达、8个超声波传感器和一个3D激光雷达,可以说是顶级硬件配置的AMR。

除了IsacSim,这款开发套件与英伟达旗下的其他软件框架完美契合,包括路线优化cuopt,视频数据分析的Metropolis,以及新增加的Deepmap。去年,英伟达收购了高精度地图企业Deepmap,现在已经开始集成相关技术。结合传感器数据,Deepmap技术可以加速3D地图的创建、部署和动态更新。从这个角度来看,英伟达计划从自动驾驶和机器人的双向发展,而OrinSoC和Deepmap可以在这两个领域发挥最大的潜力。