在 2025 年 5 月于加州圣克拉拉举行的 2025 嵌入式视觉峰会上,BrainChip 的首席技术官 Tony Lewis展示了他的公司对状态空间模型(State Space Models,SSMs)所做的研究,以及它们如何在功耗极低的有限计算环境中提供大语言模型(LLM)能力,例如在行车记录仪、医疗设备、安全摄像头甚至玩具等环境上。他展示了一个使用SSM架构的BrainChip TENN 1B LLM的例子。
SSMs 的核心目标之一是绕过基于 Transformer 模型固有的上下文处理限制。他们通过利用矩阵来根据最后看到的词元(token)生成输出,这意味着过程中的所有历史都可以用当前状态来表示,这称为马尔可夫属性。相比之下,Transformer 模型需要访问前面存储在上下文中的每个词元。
由于状态空间模型没有记忆的特性,它们可以解决在低功耗计算环境中出现的许多约束,包括更好地利用 CPU 缓存和减少内存分页,这些都会影响设备功耗并增加成本。它们还可以使用较慢的只读存储器来存储模型参数和状态。
BrainChip 开发了自己的模型,称为TENN(Temporal Event-Based Neural Network,基于时间的事件神经网络),目前是一个具有 10 亿参数的模型,有 24 个 SSM 层,可以在只读闪存上运行,功耗低于 0.5 瓦,同时能在 100 毫秒内返回结果。
Lewis 解释说,这些令人惊讶的指标是 TENN 模型的马尔可夫属性的结果,他说:“关于状态空间模型的一个很酷的事情是,实际使用的缓存非常小,所以在基于 Transformer 的模型中,你没有紧凑的状态,你必须要记住所有之前发生的事情的表示。”
此外,BrainChip 正在努力将模型量化为 4 位,以便它能够在边缘设备硬件上高效运行。
BrainChip 进行的基准测试显示,TENN 模型优于 Llama 3.2 1B,尽管 Lewis 警告说,TENN 模型的性能取决于特定应用程序,他建议使用 RAG 应用程序架构来防止幻觉。
SSMs 是一个活跃的研究领域,似乎在计算资源受限或高性能要求的地方特别有前途。它们独特的特性可以解锁新一代的边缘设备,使以前仅限于云端的复杂 AI 能力成为可能。有关 SSM 模型与 Transformer 模型性能比较的更多信息,请参阅 InfoQ 文章“幻觉的状态空间解决方案:状态空间模型如何在竞争中脱颖而出”。
可以在 Hugging Face 博客文章“状态空间模型(SSM)简介”中找到状态空间模型的技术概述以及它们的工作原理。
原文链接:
https://www.infoq.com/news/2025/07/state-space-models-edge-compute/