欢迎访问ic37.com |
会员登录 免费注册
发布采购

Dieshot/enstorrent的工作AI芯片

日期:2021-11-22 (来源:互联网)

论坛结束时,三星邀请了资深半导体专家JimKeller,共同分享他们的创业公司Tenstorrent如何在AI芯片设计的过程中实现模块化设计。400GEthernet和GDDR6,甚至可以预先准备好。

最近,在三星Foundry举行的SAFE论坛上,三星发布了一系列与IP.EDA以及封装厂商合作及创新的新闻。例如,云中芯片设计平台优化,EDA工具对3nm到5nm制程和2.5D/3D封装技术进行了验证。论坛结束时,三星邀请了资深半导体专家JimKeller,共同分享他们的创业公司Tenstorrent如何在AI芯片设计的过程中实现模块化设计。

软体时代2.0

JimKeller称我们即将进入软件2.0时代BX0026,这是他在特斯拉任职期间从特斯拉AI总裁AndreiKarpathy那得到的理念。我们不会再写大量的代码,按照过去的思维来建立程序,而是用大数据训练网络做有用的事情。第二,我们将会看到更多的算法在网络训练中使用,例如对抗训练等,电脑也会开始思考他们解决什么。

自动化就是一个很好的例子,过去有一种典型的可视化代码,每一个目标检测背后都需要大量的代码支持。今天,大数据集合的出现为自动驾驶带来了巨大的变化,你可以找到场景中的所有目标和路径,甚至可以推断出每个角色的意图。

Dieshot/enstorrent的工作AI芯片

大约50到80年代,当时基本上都是标量编程,直到后来的矢量和矩阵出现。而且,现在我们建造的芯片有许多专门用于满足人工智能计算,这就需要考虑一些因素,比如晶体管密度、代工制程以及全新的人工智能算法,这些因素同样改变了人们设计芯片的思路。

改变晶片设计

以往的芯片结构非常复杂,一个50到100个IP整合在一块芯片上,包括各种接口,需要一支数百人的庞大队伍来组装整个芯片。它还会导致一系列问题,例如流片的成本太高,最后得到最终成品需要多次测试。

在过去5-10年间,这一情况开始改变,这要归功于代工厂流程的提高和PDK质量的提高。硅片验证IP为芯片设计带来了方便,不管是顶级CAD公司.代工工厂.新成立的公司还是内部设计,都能提供可信赖的IP地址,对下一代IP,如PCIe5.0.400GEthernet和GDDR6,甚至可以预先准备好。JimKeller打趣道,芯片设计现在就像在宜家购物,在购买需要的IP后自己组装起来,加速了从设计到上市的过程。

模块设计/Tenstorrent

除IP认证之外,模块化设计已经成为当今芯片设计的主流。就拿Tenstorrent的设计过程来说,他们在硬件层面上考虑了该芯片的制作方法,包括代工技术、CAD工具和设计库,然后把所有已验证过的IP和自己的IP放在SoC中。首先,PyTorch程序通过Tenstorrent的图形编译器运行,然后再将其放置到芯片上,由AI系统进行协调,调用数学内核和数据流进行处理。清楚的设计流程意味着只需较小的团队,能够在流片之前完成软硬件的模拟与测试,最终一次性通过测试。但是目前很多AI芯片选择了更先进的工艺路线,因此流片成本依然很高。

AI晶片设计

Wormhole/Tenstorrent

不像近几年来的客户端芯片和移动端芯片,AI的计算是很有规律的,因此常常是由大量AI处理器根据数据运行一个大型程序,因此必须对设计思路进行调整。Tenstorrent公司的第二代AI芯片Wormhole是一个例子,它只有6个分区,AI处理器.GDDR6内存.100GEthernet.PCIe4.0.ARCCPU,以及一些系统逻辑。请考虑使用内存这一物理分区,先解决GDDR6PHY.GDDR6内存控制器和NOC接口的问题,然后再用同样的处理过程完成其余部分,它的芯片层实际上就是NOC总线.时钟和扫描链。这样的思想使芯片设计更加易于管理,并且可以更快地过渡到下一阶段的节点。

AscalonRISC-V处理器/Tenstorrent

5个RISC-V核也被用于Tenstorrent公司的AI芯片中,负责部分运算与协调。Tenstorrent宣布它将开放RISC-V小核,并进一步开放源代码,并考虑开放源矢量单元。JimKeller也提到了Tenstorrent正在开发的RISC-V处理器Ascalon,一款64位8取指6发射的高性能处理器。配有高级分枝预测装置.二向量单元.两个浮点单元以及两个读/存单元。

另外,由于AI工作负荷通常需要大量计算,单芯片和多芯片连接方案通常只能解决单一机架的问题,多机架互连则是对AI芯片扩展性的测试。Wormhole可以直接通过以太网连接同一模块,从芯片到服务器,从芯片到服务器,从机架到服务器,从机架到服务器,都达到了同样的带宽。而且,Wormhole在设计时已经内置了开关,因此超算一类的模式将不再需要使用任何昂贵的开关。诚然,传统的数据中心对于机架数目的配置要求更加灵活,当采用顶位开关的方案尽管不影响芯片间带宽,但却会对服务器和机架之间的带宽造成一定的影响。

结语

据JimKeller预测,未来五年人工智能在处理器、算法和芯片方面将会有许多革新。而且AI芯片的设计不只是将AI软件和算法考虑进去,就连后者也在反作用于AI芯片的设计,例如我们已经在设计工具中看到的布局和布线,将来AI构建的测试平台也可以帮助我们验证代码和块。这种AI芯片设计与AI设计芯片相吻合的情景可能离我们不远了。