常规的拓扑、大芯片和巨大带宽是数据中心中以AI为中心的芯片需要考虑的因素。
现在有了新的片上网络(NoC)互连IP,可以用于
人工智能系统级芯片(AI SoC)。Arteris IP推出了符合行业标淮的第四代FlexNoC互连IP,并采用新的可选AI软件包。新颖的NoC互连技术解决了当前在AI设计中的许多数据流问题。它的创新性的功能满足下一代AI芯片的要求,而这些芯片加快了神经网络和机器学习的处理。AI芯片通常由数十或数百个并行处理器组成。对于系统级效率来说,关键是优化处理元件和存储器之间的数据流,因而互连是这些AI芯片的关键技术。
新出现的AI芯片架构将在三个主要方面从新的NoC技术受益:自动生成常规拓扑,有效地管理走线长的大型芯片的数据流,并且增大片上带宽和片外带宽。
一、简化数据流
对于处在数据中心的芯片,人工智能系统级芯片(AI SoC)设计人员通常更喜欢常规拓扑,例如环,网格或者环面,这是因为在网格或环形拓扑中,经常用它们来实现相同类型的硬件加速器,这方面的例子很多。这项技术称作同构并行处理。在确定下来的网格或环网中,使用多个相同硬件加速器可以确保可预测数据流的实现,降低硬件加速器的研发成本,并且可以保证以后的设计是可以扩展的。
使用FlexNoC 4 AI软件包时,设计人员能够自动生成拓扑,并且便于编辑已经生成的拓扑。此外,可选的物理感知拓扑引擎可以在芯片布局图的顶部显示片上互连元件。这样SoC设计人员能够在布局图中查看其他IP所生成的自动化内容,并在编辑已经生成的拓扑时提供控制方面的功能。
除了编辑已经生成的拓扑之外,工程师还可以在拓扑的每个节点上分别编辑路由器,可以一次编辑一个,也可以在生成拓扑时编辑所有路由器。
二、克服设计大芯片的障碍
为了应对这些挑战,AI软件包提供了两项新技术:源同步
通信和VC-Link™虚拟通道。
当功率域延伸到芯片的广大区域时,因为时钟树分支的距离被拉长了,时钟偏差问题便成为问题。解决这个问题的一个方法是沿着这些长链路进行异步通信,但是这样做,会由于缓冲部件而增大面积。更好的方法是源同步通信,这时时钟信号与数据并行地跨越长距离传送。基本上,时钟信号是沿着数据路径的每个流水线重新传送,一旦数据路径进入最终时钟域,就传过去一个异步信号。比起完全异步的解决方案,这个方法节省的芯片面积更多。
图1 源同步通信和VC-Link™虚拟通道等工具能够有效地管理跨芯片的长路径,从而避免时序收敛问题。
为了解决布局图中在受阻区域中的布线拥塞问题,VC-Link™虚拟通道可以在多个通信通道上共同使用一组较小的线路,同时保持服务质量(QoS)和无阻塞通信。这项技术是设计成让设计人员只在必要时使用,由于有缓冲区——这是实现任何类型的虚拟通道所需要的,从而节省了芯片面积。
三、管理带宽的难题
带宽问题也是AI芯片设计人员所面临的挑战。这种新的互连技术提供超宽数据路径,支持智能多播和第二代HBM2(高带宽内存)多通道内存,从而解决了片上数据流和片外存储器存取方面的挑战。
首先,新的互连技术支持宽度高达2,048位的数据,并利用经过实际验证的FlexNoC数据速率自适应技术,它根据需要自动地实现通信的复用或解复用。特别是,宽度为2,048位的通信可以确保按照所需的带宽为几乎所有处理单元提供数据,并且避免数据不足。
其次,利用多播通信,可以把一个数据同时写到多个目标上。在神经网络处理期间的某些时间,例如更新权重和传输新的图像映射,这种能力很重要。有效地实现多播的关键是尽可能靠近网络目标广播数据,从而避免可用网络带宽的过度使用。Arteris FlexNoC用一种在带宽和芯片面积两方面效果都非常好的方法来执行这种智能多播技术。
最后,新的AI软件包实现了与HBM2多通道内存控制器的高效率整合,具有8或16通道交错。整合起来的重新排序缓冲把目标作出的响应累积起来,从而确保发出信号的部件按顺序接收响应信号,虽然是无序交错通信。
图2 FlexNoC 4 AI Package通过8到16个网络接口单元(NIU)来整合HBM2内存,以促进流量聚合和数据宽度转换。
用于AI硬件处理的新型互连
目前,神经网络硬件加速是用在专门针对AI应用的芯片中,但这种能力最终将成为许多类型的系统级芯片的子系统的一部分。随着这些设计变得越来越大,而且需要更大的带宽,需要新的互连技术来确保数据流效率,从而使这些硬件加速器以最佳效率运行,同时解决物理和时序收敛问题。FlexNoC 4和随之提供的AI软件包旨在解决现在和将来出现的这些问题。
有关FlexNoC和可选AI软件包的更多信息,请浏览http://www.arteris.com/flexnoc-ai-package。