日志

[ZZ]类脑芯片编年史(一) 起源：能量都去哪了？

已有 1907 次阅读| 2023-12-2 22:24 |个人分类:生物电子|系统分类:芯片设计| 类脑芯片

导读：现在是不是类脑芯片公司创业的最佳时期？类脑芯片现在的主流技术路径是什么, 方向正确吗？类脑芯片未来的最佳应用场景可能是什么？类脑芯片编年目录：

一起源：能量都去哪了？

二创新：群雄割据的类脑芯片时代。

三希望：迈向通用人工智能和下一代AI的可能性？

四反思：不对，好像有些不对，我们的“反向传播”算法和“基元操作”在哪里？

五机会：大模型和人形机器人时代下的类脑芯片机遇。

-------------------------------------------------

Carver Mead的思考

讲到类脑芯片的起源，就不得不提起一位大师Carver Mead, 他的简介如下：

图一：Carver Mead 照片。

"Carver mead 是一位美国科学家和工程师，生于1934年5月1日。他目前担任加利福尼亚理工学院（Caltech）的戈登和贝蒂·摩尔工程与应用科学名誉教授，已在该校任教超过40年。他曾指导过Caltech的第一位女工程学毕业生黛博拉·钟（Deborah Chung）。他还指导过Caltech的第一位女电气工程学生路易丝·柯克布赖德（Louise Kirkbride）。作为一名教师，他的贡献包括与林恩·康威（Lynn Conway）合著的经典教材《VLSI系统导论》（1980年）。作为现代微电子学的先驱，他对半导体、数字芯片和硅编译器的发展和设计做出了贡献，这些技术构成了现代大规模集成芯片设计的基础。在1980年代，他专注于人类神经学和生物学的电子建模，创造了“神经形态电子系统”。米德涉足创办了20多家公司。最近，他呼吁重新构想现代物理学，重新审视尼尔斯·玻尔、阿尔伯特·爱因斯坦等人在后来实验证据和仪器发展光下的理论辩论"

CM(Carver Mead)最开始的思考来源于对芯片功耗的考虑，相比于大脑的计算效率，现在的芯片CMOS技术有好几个数量级的差异。所以，他在思考能不能暂时放弃现有的芯片设计技术，去开拓一种和大脑很类似的芯片计算方式，达到大脑的极致功能。为了设计这个技术，Carver Mead认真的分析了大脑和现在芯片数字系统的两者的相同和差异之处。他发现这里面有一个核心问题：就是这种计算效率的这种巨大差异与系统的基本操作单元有关。

那什么是系统基本操作单元？神经元实际上是使用单个分子进行工作的。如果操纵单个分子在根本上比使用我们构建晶体管的连续物理学更有效。如果这个推测是真的，我们将没有希望使我们的硅技术能够与神经系统竞争。实际上，这个猜测是错误的。神经元使用通道的群体而不是单个通道来改变它们的导电性，这与晶体管使用电子的群体而不是单个电子的方式非常相似。

图二：大脑神经系统突触基本操作左图与数字电路Transistor基本操作右图性能对比。图片来源于Neuromorphic Electronic System。

如图二，我们可以通过询问从0到1为晶体管的栅极充电时有多少能量来比较这两种技术。我们可以想象，晶体管将执行一个与突触操作大致相当的功能。在今天的技术中，将一个最小尺寸的晶体管的栅极从0充电到1大约需要j的能量。在未来十年，这个数字将达到约10^-15j，这已经接近神经系统实现的效率范围。因此，CM得出结论：计算效率在神经系统和计算机之间的差异主要归因于系统中使用基本操作的方式，而不是个别基本操作单元的要求。

能量都去哪了

那么现在的芯片系统能量都去哪了呢？在我们用于数字计算机操作的过程中，制造一个晶体管的成本和执行一次操作所需的能量之间存在着100万倍的差距，而这一差距有两个主要原因：

我们失去了大约100倍的能量，因为我们构建数字硬件的方式导致门的电容只是节点电容的一小部分。节点主要是由导线构成的，因此我们大部分的能量都花费在充电导线而不是门上。
我们使用了远远超过一个晶体管来执行一个操作；在典型的实现中，我们需要切换大约10,000个晶体管来执行一个操作。

因此，制造我们在数字机器中称为“操作”的过程的能量成本是操作单个晶体管所需能量的100万倍。简单的解释就是：我们从限制自己在一个极度贫乏的世界开始，然后努力构建出有意义的东西。奇迹是我们能做到！但我们为此付出了功耗巨大的代价，将内置在这些晶体管中的所有美丽的物理特性压缩成1或0，然后痛苦地通过AND和OR门重新构建它，以重新发明乘法。然后，我们串联这些乘法和加法以获得更复杂的操作。我们完成了数字世界的建设，但是牺牲了晶体管里美丽的物理现象，导致了巨大的功耗损伤。

那么，大脑是不是也是这么适用基本操作的呢？大概率不是的。所以对于大脑的运算机制，如果我们理解神经信息处理的原则，那么在电子学方面没有什么是我们不能模拟的。CM过去的十年都在努力了解它的工作原理，以便能够构建以类似方式工作的进化在演化神经系统的过程中做出了很多发明。CM将系统分为三个层次，这些层次在某种程度上是任意的。在底层是基本功能，然后是信息的表示，最后是组织原则。这三个层次必须共同工作；它们与人类工程系统中使用的那些非常不同。此外，神经系统没有附带一本解释其操作原理的手册。蓝图和早期的原型早就被丢弃了。现在我们被困在一个人工制品中，因此我们必须尝试反向工程。

类脑计算的起源和特点：基于物理现象的基本操作单元

如果我们能够构建实现与神经系统使用的相同基本操作(图二）的事实，所以我们应该能够基于神经系统使用的组织原则构建整个系统的结论。我将通用地将这些系统称为神经形态系统。这是CM对神经形态电路的定义：我们首先让设备物理学定义我们的基本操作。这些函数提供了一组丰富的计算基元，每个都是基本物理原理的直接结果。比如，充分利用介质的固有能力，如产生指数函数、进行随时间积分以及使用基尔霍夫定律实现零成本加法。这些是强大的基元。它们比AND和OR更有趣。它们比乘法和加法更有趣。但它们是非常不同的。可以看出一点，CM明确的指出了系统的基本计算单元都是基于物理现象的直接结果，这样才能称之为神经形态电路！

所以，大脑如此高效的一个核心本质是它的单元基本操作的组织原则在很大程度上基于基本操作的物理现象来设计的。这些物理现象可以是生指数函数、进行随时间积分以及使用基尔霍夫定律实现零成本加法等等，或者是更高维度的物理现象。

同时，CM指出，如果我们试图与它们对抗，试图将它们变成我们熟悉的东西，比如再回答传统的数字电路设计法则中，0,1 表示，AND/OR运算单元，最终会弄得一团糟。但是，目前的大部分类脑计算芯片都是以传统的数字运算电路法则来实现的，运算基元并不是基于物理现象的直接结果。

视网膜硅化的概念验证

后面CM用了一个具体的视网膜硅化的例子来证明他的理论，这个模拟电路图如下：

图三：视网膜硅化的模拟电路图。图片来源于Neuromorphic Electronic System。

1868年，恩斯特·马赫（Ernst Mach）[3]以以下方式描述了视网膜的操作：

“对于视网膜上的一个点而言，其照明将与其照明与相邻点的照明平均值之间的差异成比例，具体取决于其照明是否高于或低于平均值。在这个平均值中，视网膜点的权重应该被认为随着离所考虑的特定点的距离迅速减小。”

多年来，生物学家已经收集了关于完成这种计算的详细机制的证据。执行视觉处理链中的第一步的神经机制位于视网膜的外层网状层，就在光感受器下方。在外层网状层，信息的横向传播是通过一种由电阻性连接耦合的二维细胞网络来介导的。网络中每个点的电压表示光感受器输入的空间加权平均。离网络中的一个点越远的输入，它被赋予的权重就越小。权重函数通常以指数方式随距离减小。

在以这一生物学证据为指导的基础上，Mahowald 报告了一个描述马赫操作的硅视网膜模型。在硅视网膜中，网络中的每个节点都与其六个相邻节点通过电阻元素相连，形成一个六边形数组，如图2所示。一个单一的偏置电路电阻网络计算光感受器输入的空间加权平均值。权重函数的空间尺度由横向电阻和将光感受器耦合到网络中的电导的乘积确定。通过改变跨导放大器的电导或电阻的强度，可以改变网络的空间常数，从而改变信号被平均的有效区域。从工程的角度来看，硅视网膜执行的计算的主要功能是提供一种自动增益控制，扩展系统的有效操作范围。无论观察条件如何，感觉系统都对其输入的变化敏感是至关重要的。执行此级别归一化操作的结构还执行许多其他功能，如计算对比度比和增强图像中的边缘。因此，负责使系统在巨大的图像强度范围内运作的机制对于数据表示具有重要的影响。和传统的电路设计相比，这样的设计在功耗上面提高了4个数量级！

自组织系统

当然，CM指出，这样的一个基于物理现象的基本操作的系统需要一个自适应模式来纠正和补偿差异性。

图四：具有自适用性视网膜硅化的概念图。图片来源于Neuromorphic Electronic System。

图中标有“模型”的方框是一个预测器，也许是一个粗略的预测器；在视网膜的情况下，该模型是电阻网络。我们向预测器提供随时间变化的输入，它计算下一个可能发生的事情，就在实际输入到达之前。然后，当该输入变为现实时，它与预测进行比较。如果两个值相同，则不产生新信息；系统已经知道即将发生的事情。发生的事情就是预期的事情；因此，不会向上传递到下一层次的处理。但是当发生了意外事件时，存在差异，该差异将传递到下一层以进行解释。如果在神经系统的每个级别都重复执行此操作，那么信息将在每个后续级别都具有更高的质量，因为我们仅处理在较低级别无法预测的信息。在这种系统中，学习是通过比较器到模型的自适应反馈来实现的。如果模型做出的预测与自然界中发生的情况存在系统性差异，基于个体差异的持续校正将导致模型学习实际发生的情况，以及可以在其表示水平上捕获的情况。只有那些真正随机的事件，或者无法从这个层次预测的事件，因此在所有经验中似乎是随机的事件，才会在整个经验中被取消。系统参数将进行局部随机漫步，但将保持几乎集中在自然提供的输入的平均水平上。视网膜呈现给它各种各样的场景；它看到白边和黑边。但是视网膜中的每个像素在时间上都看到相同的强度。不断向这个平均值进行校正，不断纠正光感受器敏感性的差异以及个体神经元和突触性质的变化。所有其他信息都传递到更高的层次。即使这种简单的预测水平也可以从图像中删除大量无意义的细节，并为下一级别的区分提供更高的表示水平。沿着图4的线组织的许多级别的系统能够计算出真正令人惊叹的结果或许并不令人惊讶：每个级别都配备了一个世界的模型，如通过从较低级别上传递的信息所表示。从给定级别的角度来看，所有较低级别的处理都可以被视为预处理。这种系统的最重要特性是，调整其各个组件中的错误和不匹配的相同机制还使系统能够通过对来自世界的信息的持续暴露来建立自己的模型。尽管这个自适应视网膜的特定示例只学习了一个简单的模型，但它说明了一个更普遍的原则：这种系统在最深刻的意义上是自组织的。

结论

最后CM指出：生物信息处理系统运行在与工程师熟悉的完全不同的原理基础上。对于许多问题，特别是输入数据不受控制且计算可以以相对方式指定的问题，生物学解决方案比我们使用数字方法实现的解决方案效果高出数个数量级。CM已经证明，这种优势主要归因于将1.基本物理现象用作计算基元，以及通过模拟信号的相对值而不是数字信号的绝对值来表示信息。CM认为这种方法2.需要自适应技术来纠正名义上相同组件之间的差异，而这种自适应能力自然地导致了能够学习环境的系统。尽管迄今为止，自适应模拟系统还处于初级阶段，但它们已经证明是进行更大规模项目的重要原则的先决条件。这些实验中可能最令人感兴趣的结果之一是，自适应模拟系统在使用硅方面的效率是数字系统的100倍，并且它们的功耗比可比较的数字系统少了10,000倍。显然，这些系统对于组件降级和故障比更传统的系统更具鲁棒性。我还提出，硅技术的基本二维限制不是在开发神经形态系统潜力方面的严重限制。因此，基于这些原因，CM预计大规模自适应模拟技术将允许充分利用迄今为止未实现的晶圆尺寸硅制造的巨大潜力。

一段话最后总结，那么类脑计算的起源来自哪里呢？CM为了解决大脑和现在的芯片技术对功耗需求的巨大差距，提出了一个新的系统，这个系统名字叫神经形态电路(Neuromorphic electroncis system), 同时给出的具体的定义和特征：1)系统的基本操作是基于物理现象的，每个都是基本物理原理的直接结果。它们不是我们习惯于构建计算机的操作。2）但是基于这些基元，我们应该能够基于神经系统使用的组织原则构建整个新的类脑系统。而现在的芯片系统对物理现象的组织法则不够有效，导致的功耗的巨大差异。

转自公众号：脑界漫游指南 https://mp.weixin.qq.com/s/1LN5KmpGDB6Wtq_h1DekCg