语言模型需要“睡眠”吗？借助离线循环机制优化在线推理

论文提出了 "LLM Sleep"，一种受动物睡眠记忆巩固机制启发的离线递归计算方法，用于提升大语言模型对已被驱逐出注意力缓存的历史上下文的深度推理能力。

核心问题

Transformer 的注意力机制随上下文长度二次方增长，现有解决方案（如 SSM-注意力混合模型）通过固定大小的"快速权重"内存压缩历史信息，但作者发现：即使内存容量足够，这些模型在需要深度推理时仍会失败。瓶颈不在于存储容量，而在于将驱逐的上下文转化为有用内部状态的计算量不足。

当模型的上下文窗口满时，进入"睡眠"阶段：

任务	核心发现
Rule 110 元胞自动机 (t=32步)	无循环模型≈随机猜测(10%)，4次循环达30%+
Depo 多跳图检索 (k-hop)	循环次数增加加速学习，4循环模型开始改善16跳查询
GSM-Infinite 数学推理 (预训练模型)	6循环Jet模型在8操作问题上从35.1%→38.8%；4循环Ouro在6操作问题上从41.9%→61.5%
滑动窗口驱逐	4循环相比1循环，2操作问题从59.6%→90.5%（52%提升）

训练时 N 次深层前向/反向传播导致缓慢和不稳定，需借助隐式梯度、截断BPTT等技术缓解。