欢迎访问ic37.com |
会员登录 免费注册
发布采购

有些解决方案非常适合AI推断,但不适合整体应用处理

日期:2020-11-5 (来源:互联网)

一般来说,只有CPU难以满足这一要求,需要某种形式的计算加速,才能更有效地处理AI推断工作负荷。GPU通常提供高TOP(每秒过度运算,常见的性能指标),但AI推测性能通常需要与预处理性能和后处理性能一致。

AI已经开始改变我们生活的各个方面,推动了显着的社会进步。从自动驾驶汽车到AI辅助医疗诊断,我们正处于真正转型时代的开始。

但是,有机会就有挑战。AI作为一个采用经过培训的机器学习算法开展预测的过程,无论是布局在云端、边缘还是终端,都需要在严格的耗电预算下提供优异的处理性能。一般来说,只有CPU难以满足这一要求,需要某种形式的计算加速,才能更有效地处理AI推断工作负荷。

同时,AI算法发展迅速,速度比传统BF998芯片开发周期快。使用ASIC等固定功能的芯片实现AI网络,可能会因为先进的AI模型的快速创新而迅速过时。

整体应用加速了。

此外,还有第三个挑战,这也是众所周知的一个,其原因是人工智能推测不能单独部署。真正的人工智能部署通常需要非人工智能处理,无论是在人工智能功能之前还是之后。例如,图像在满足AI模型的数据输入要求之前,有必要完成解压和缩放。这些传统的处理功能必须在与AI功能相同的吞吐量下运行,同样需要实现高性能和低功耗。类似于AI推断实现方案,非AI预处理和后处理功能开始需要某种形式的加速。

构建真正的应用需要有效地实现整体应用。在数据中心的应用中,应用可能有数千甚至数百万个并行例子。如果每个例子都能降低一定程度的功耗,总功耗就会显着降低。

只有总体应用能够加快性能目标,提高效率满足功耗要求,解决方案才具有可行性。那么,如何以可行的方式加快整体应用呢?

这里有三个重要因素:

可以构建定制的数据路径

使用单个部件实现计划

充分发挥最先进的AI模型优势,实现快速发展和改善。

下面是对这三个环节的具体介绍。

1.可构建定制数据路径。

大多数形式的人工智能推测在流动数据中运行。数据通常处于视频的一部分、正在处理的医疗影像和正在分析的网络流量等运动状态。

即使将数据存储在盘中,也要从盘中读取数据,然后通过AI应用传输。定制数据路径为处理这种数据流提供了最有效的方法。

定制数据路径使应用摆脱了传统冯诺曼CPU结构的限制。在这样的架构中,数据用小批量从内存中读取,经过处理后返回处理器。相反,定制数据路径将数据从一个处理引擎传递给下一个处理引擎,不仅延迟,而且性能水平合理。过低的处理性能不能满足这种应用的要求。过高的处理性能会降低效率,空闲功能会浪费电力和物理空间。定制数据路径提供了良好的平衡,为应用提供了定制的实现方案。

2.单个设备的实现方案。

有些解决方案非常适合AI推断,但不适合整体应用处理。GPU等固定设备一般不适合这种用途。GPU通常提供高TOP(每秒过度运算,常见的性能指标),但AI推测性能通常需要与预处理性能和后处理性能一致。如果非AI组件无法有效地在同一个GPU上实现,则需要多个设备解决方案。因为需要在设备之间传递数据,所以会浪费电力消耗,从消耗电力的角度来看效率极低,成本高。因此,能有效实现整体应用的单个设备在实际AI推测配置中具有显着优势。

3.灵活适应最新的人工智能模型步。

AI的创新速度令人惊叹。现在被视为先进的技术,半年后容易宣布过时。使用旧模型的应用有失去竞争力的风险,能够迅速实现最先进的模型是非常重要的。

那么,有哪些技术可以让AI模型动态更新,同时提供构建定制数据路径的能力,让AI和非AI处理在单个设备中加速呢?答案是-适应计算平台。

适应计算平台。

自适应计算平台构建在制造后可动态再配置的硬件上。这包括FPGA等经过长期检验的技术和赛灵思AI引擎等最近的革新。赛灵思Versal自适应计算加速平台等单个设备平台,便于构建定制数据路径,加快AI处理和非AI处理功能。另外,由于硬件可以快速重新配置,也可以快速高效地实现最新的AI模型。自适应计算器件结合了两个优点。它们不仅具有定制ASIC的效率优势,而且避免了长期高成本的设计周期。