日志

[ZZ]类脑芯片编年史(二) 创新：群雄割据

已有 383 次阅读| 2023-12-3 09:01 |个人分类:生物电子|系统分类:芯片设计| 类脑芯片

导读：想象一下，如果我们的电子设备能够像大脑一样学习、适应和创造，是不是就能在解决问题上展现出更令人瞩目的能力呢？类脑芯片就是为了实现这个梦想而生的魔法硅片，它们可不是普通的芯片，而是带有神秘魔法的芯片！这些芯片灵感来源于我们的大脑，与传统计算机有着本质不同的设计。在这个奇妙的世界里，我们谈论的不再是冰冷的电流和零一代码，而是仿佛与神经元共舞的微小电信号。想象一下，这些小芯片能够像大脑一样处理信息，甚至能够自我进化，是不是觉得有点神奇？

本文总结：

类脑芯片的商业化至今为止是不成功的(IBM, Intel等），在没有弄明白生物神经网络计算机制的前提下，去复现极其表面的大脑脉冲特征风险是很大的。或许，类脑芯片的单个计算单元就不应该是脉冲神经元！？
事件相机是目前为止类脑芯片商业化最成功的技术，一个原因是它从大脑启发到的是一个完整的清晰的处理机制，而不是简单的表象。另一个原因是这种机制的确来带的具有很高价值的技术特点。
虽然目前类脑芯片的公司仍然在努力挣扎，但是我们还是要给予敬佩和掌声。在狭义的成功定义下他们是失败者，但是在广义的成功定义下，他们的技术和新的体系架构肯定对推动下一代计算机架构做出的巨大的贡献。
在没有核心学习算法的加持下，IBM和Intel的类脑芯片显的多少有些有心无力。

一起源：能量都去哪了？

类脑芯片编年史(一) 起源：能量都去哪了？

二创新：群雄割据的类脑芯片时代。

三希望：迈向通用人工智能和下一代AI的可能性？

四反思：不对，好像有些不对，我们的“反向传播”算法和“基元操作”在哪里？

五机会：大模型和人形机器人时代下的类脑芯片机遇。

-------------------------------------------------

类脑芯片简介

在前面一章我们提到了类脑计算的起源和特点是基于大脑物理现象的基本操作单元，只有基于这个准则，我们才能完整的利用功耗，降低功耗。那么从现在已有的神经科学中我们得知，大脑运算的基本操作的现象是什么？神经元和脉冲计算，它们在某种程度上表现出神经生物学的启示，使它们与主流传统计算系统有所区别（尽管我们现在仍然不清楚脉冲计算的具体计算机制和机理）。所以，在类脑芯片发展的启蒙时期，工程师们开始了大规模“仿脑”的芯片设计之路。在这里我们简要介绍下市面上2013-2023的类脑芯片以及公司，它们的优点和缺点，并突显每个类脑芯片的核心创新之处（本文不包括基于新材料研发类脑芯片的介绍和讨论）。

IBM：TrueNorth 芯片

图一：TrueNorth芯片互联图

IBM TrueNorth芯片可谓是类脑芯片的开山鼻祖。它的背景是DARPA SYNAPSE计划下十年工作的成果，旨在提供一种非常密集、能效卓越的平台，能够支持各种认知应用。其关键组成部分是一个非常庞大的、拥有540万晶体管的28纳米CMOS芯片，内置4096个神经元核心，每个核心包含256个神经元，每个神经元有256个突触输入。该芯片完全是数字的，并且是异步工作的，除了一个定义基本时间步长的1 kHz时钟。因此，硬件行为是确定性的，完全按照软件模型的预测进行，因此可以用于应用开发和实施学习算法。

图二：TrueNorth芯片设计原理。来源：A Million Spiking-Neuron Integrated Circuit with aScalable Communication Network and Interface。

TrueNorth神经元核心的中心设计是一个256×256的交叉条(cross bar)，它有选择地将输入的神经脉冲事件连接到输出神经元。交叉条的输入通过缓冲区耦合，这些缓冲区可以插入轴突延迟。交叉条开关是二进制的，尽管每个输入与四种突触“类型”之一相关联，每个神经元为每种类型的连接分配了一个在-255到+255范围内的整数权重，以给每个连接赋予突触权重——与特定输入相关联的所有活动突触具有相同的类型，该类型由每个神经元独立映射到四个权重中的一个。

图三：TrueNorth芯片数据通讯结构。

交叉条的输出与数字神经元模型相耦合，该模型实施了一种带有23个可配置参数的积分-射击算法,这些参数可以调整以产生一系列不同的行为。数字伪随机源用于通过调制突触连接、神经元阈值和神经元泄漏来生成随机行为。这种互联方式适合局部连接紧密，全局连接稀疏的神经网络。大规模远距离的数据通讯网络实现在该架构上容易形成数据阻塞。

Manchest University: SpiNNaker 系统

SpiNNaker项目开发了一台大规模并行数字计算机，其通信基础设施的目标是模拟具有类似于生物大脑的实时连接的大规模尖峰神经网络。该项目是由 Steve Furber发起(老爷子前几天刚刚退休)。当前最大的SpiNNaker机器（作为欧盟旗舰人脑计划平台之一提供）包含500,000个处理器核心，目标是在未来一年将这个数字增加到一百万核心。

图四：SpiNNaker系统。

在许多方面，SpiNNaker类似于传统的超级计算机，但有以下显著区别：

SpiNNaker中的处理器是小型整数核心，最初是为移动和嵌入式应用而设计的，而不是超级计算机设计者偏爱的高端“大”核心。
SpiNNaker中的大脑启发式通信结构[25]被优化用于发送大量非常小的数据包（通常每个包传递一个神经脉冲）到许多目的地，遵循静态配置的多播路径，而超级计算机通常使用大的点对点数据包，并采用动态路由.

这些差异意味着 SpiNNaker 不应被视为一台通用计算机，而应被看作一台专用的神经计算机，尽管事实上它并不仅限于模拟神经网络，而且可能适用于具有大量相对简单的耦合进程、具有类似神经元通信属性的更广泛应用。例如，细胞自动机和有限元问题。或许将 SpiNNaker 描述为神经形态系统可能有些牵强，但其被包括在此处是有道理的，因为它的主要目的是模拟神经网络。

SpiNNaker的设计基于两个主要考虑因素：

可扩展性：大脑，尤其是人脑，包含大量组件，对其进行建模在计算上非常具有挑战性。因此，任何希望接近人脑规模的系统都必须体现可扩展性的原则。
能效：由于系统规模较大，其能耗可能变得经济不划算。能效设计是一门整体学科，SpiNNaker的设计贯穿始终受到这一目标的影响。

这些考虑因素导致了 SpiNNaker 的基本设计，它以一个小型塑料 300 引脚 BGA（球栅阵列）封装为基础，其中包含一个定制处理芯片[26]和一个标准的 128 MB SDRAM 存储芯片。处理芯片采用130纳米CMOS技术设计，包含18个ARM968处理器核心，每个核心都有32 KB指令内存和64 KB数据内存，一个多播数据包路由器，以及各种支持组件。这里的原则是最小化经常访问数据必须移动的距离：代码和最常用的数据距离核心只有一两毫米，而不经常访问的数据位于距离核心约1厘米的SDRAM上。通过在所有核心完全负载时提供最大1瓦的功耗，以及在计算负载较低时从这个水平降低功耗，实现了能效。通过设计封装，使得几乎任意大的二维表面都可以用这些封装铺瓦盖房，实现了可扩展性。

SpiNNaker通信结构基于一个二维三角网格，每个节点由一个处理器层和一个内存层组成。路由器接受来自所有18个本地处理器核心和6个传入芯片间连接的数据包，然后使用关联查找表决定如何将数据包复制到其本地处理器的任何子集（或全部）和传出芯片间连接的任何子集（或全部）。结果是，单个脉冲可以通过任意树传播到机器内的任意数量目的地（见图五）。路由基于分组交换的事件表示，并且依赖于特定神经元的连接是静态的，或者至多是缓慢变化的这一事实。每个神经元可以通过唯一的树进行路由，尽管在实践中，路由是基于神经元群体而不是单个神经元的，每个路由表的受限尺寸使得在大多数情况下这种优化是必要的。

图五：SpiNNaker系统网络数据通讯协议。图片来源：Large-scale neuromorphic computing systems。

可以看出，SpiNNaker的这种通讯方式的灵活度在某种程度上会更优于True North，同时，由于起神经核是基于ARM架构的，所以其灵活性十分好。但是由于其软件配置和使用的复杂性，导致该系统目前是使用率和普及率并不是很高。

SONY/inivation/PROPHESEE：事件相机

事件相机，也称为神经形态相机，是有生物视网膜计算机制启发而来，是一种对局部亮度变化做出响应的成像传感器。事件相机不像传统（帧）相机那样使用快门来捕捉图像。相反，事件相机中的每个像素都独立且异步运行，只在发生亮度变化时报告，并在没有变化时保持静默。事件相机的像素独立地对亮度的变化作出响应。每个像素存储一个参考亮度水平，并不断将其与当前亮度水平进行比较。如果亮度差异超过阈值，该像素将重置其参考水平并生成一个事件：一个包含像素地址和时间戳的离散数据包。事件还可以包含亮度变化的极性（增加或减少），或照明水平的瞬时测量。因此，事件相机输出由场景照明变化触发的异步事件流。因此，和传统的帧基于的相机相比，事件相机的优点是主要包括非常高的动态范围、无运动模糊以及微秒级的延迟。然而，由于输出是由一系列异步事件组成而不是实际的强度图像，传统的视觉算法无法应用于此，因此需要新的算法来利用传感器的高时序分辨率和异步性质。

图六：拍旋转的盘上黑点时，传统相机和实际驱动相机的区别。

事件相机最早是由 Tobi Delbruck 发明的。Tobi Delbruck和Shih-Chii Liu.同时也是全球很知名的类脑芯片的研究者。这也是类脑技术至今商业化最成功的技术(没有之一目前）。大型公司SONY和许多创业公司比如 inivation/PROPHESEE都基于此开发了相应的产品，与此同时也在积极的开拓该技术新的商业场景。

图七：PROPHESEE 事件相机芯片产品系列（https://www.prophesee.ai/event-based-sensors/）。

图八：SONY事件相机芯片技术（https://www.sonysemicon.com/en/technology/industry/evs.html）

Intel: Loihi芯片

Loihi（发音为low-ee-hee）是由英特尔实验室设计的神经形态研究测试芯片，采用了异步脉冲神经网络（SNN）来实现自适应的自修改的事件驱动细粒度并行计算，用于高效实现学习和推理。该芯片是一个128个神经形态核心的多核芯片，采用英特尔的14纳米工艺制造，具有独特的可编程微码学习引擎，用于芯片上的SNN训练。该芯片于2018年正式在俄勒冈州举办的神经启发计算元素（NICE）研讨会上展示。

芯片本身实现了一个包含128个神经形态核心的完全异步多核网格。它实现了一个脉冲神经网络（SNN），其中在任何给定时间，一个或多个实现的神经元可能通过有向链接（突触）向其邻居发送脉冲。所有神经元都有一个本地状态，具有自己的一套规则，影响其演变和脉冲生成的时机。相互作用完全是异步的、零星的，并且与网络上的任何其他神经元无关。Loihi神经形态核心的一个独特特性是它们集成的学习引擎，通过可编程的微码学习规则实现了完全的芯片内学习。核间通信使用分组化消息进行，包括用于核管理和x86到x86消息的写入、读取请求和读取响应消息，脉冲消息以及屏障消息（用于同步）。

Loihi2最近也研发出来，它广义的基于事件的消息传递。Loihi最初仅支持二进制值的脉冲消息。Loihi 2 允许脉冲携带带有整数值负载的消息，而几乎不会额外增加性能或能量成本。这种广义的脉冲消息支持基于事件的消息传递，保留了尖峰神经网络(SNNs)中令人满意的稀疏和时间编码的通信特性，同时还提供了更高的数值精度。

图九：Loihi2代芯片架构。

Loihi 2相较于其前身引入了一系列增强：

更强大的神经元模型可编程性： Loihi专为特定的SNN模型而设计。而Loihi 2在每个神经形态核心中使用可编程的流水线来实现其神经元模型，以支持常见的算术、比较和程序控制流指令。相较于Loihi，Loihi 2的可编程性大大扩展了其神经元模型的范围，而不损害性能或效率，从而使其能够应用于更丰富的用例和应用场景。
增强的学习能力： Loihi主要支持其突触上的两因素学习规则，其中第三调制项来自非定位的“奖励”广播。Loihi 2允许网络将定位的“第三因素”映射到特定的突触。这提供了对许多最新的受神经启发的学习算法的支持，包括误差反向传播算法的近似，这是深度学习的主要算法。Loihi能够在概念验证演示中原型化这些算法，而Loihi 2将能够扩展这些示例，例如更快地学习新的手势，展示更广泛的手势运动范围。
多项容量优化以提高资源密度： Loihi 2采用了Intel 4工艺的预生产版本，以满足在单个神经形态芯片内实现更大应用规模的需求。Loihi 2还融入了许多体系结构优化，以压缩和最大化每个芯片的神经内存资源的效率。这些创新共同提高了Intel神经形态硅芯体系结构的整体资源密度，根据编程网络的性质，从2倍到超过160倍不等。
更快的电路速度： Loihi 2的异步电路已经完全重新设计和优化，改进了从简单的神经元状态更新到突触操作再到脉冲生成的各个级别的流水线。这提供了处理速度的提升，从简单神经元状态更新的2倍到突触操作的5倍再到脉冲生成的10倍。Loihi 2支持最小芯片宽时间步长低于200纳秒；它现在能够处理神经形态网络，速度比生物神经元快上5000倍。
界面改进： Loihi 2提供比Loihi更多的标准芯片接口。这些接口更快且高纬度。Loihi 2芯片支持4倍更快的异步芯片间信号带宽，一个目标脉冲广播功能，在常见网络中可将芯片间带宽利用减少10倍或更多，以及每个芯片的六个可扩展端口的三维网状网络拓扑。Loihi 2通过其新的以太网接口，以及新兴的基于事件的视觉（和其他）传感器设备，支持与更广泛范围的标准芯片的无胶合并。
借助这些增强功能，Loihi 2现在支持一种称为Sigma-Delta Neural Network（SDNN）的新型深度神经网络（DNN）实现，与Loihi上常用的速率编码脉冲神经网络方法相比，SDNN在速度和效率上取得了显著的提升。SDNN以一种稀疏、事件驱动的方式，在发生显著变化时通信，计算梯度激活值的方式与传统DNN相同。模拟表征显示，在Loihi 2上，相比于Loihi的速率编码SNNs，在DNN推理工作负载方面，SDNN可以在推理速度和能效两方面提高超过10倍。