语言模型需要“睡眠”吗?借助离线循环机制优化在线推理

6
分类学习资料
来源跳转
发表时间

内容

论文提出了 "LLM Sleep",一种受动物睡眠记忆巩固机制启发的离线递归计算方法,用于提升大语言模型对已被驱逐出注意力缓存的历史上下文的深度推理能力。

核心问题

Transformer 的注意力机制随上下文长度二次方增长,现有解决方案(如 SSM-注意力混合模型)通过固定大小的"快速权重"内存压缩历史信息,但作者发现:即使内存容量足够,这些模型在需要深度推理时仍会失败。瓶颈不在于存储容量,而在于将驱逐的上下文转化为有用内部状态的计算量不足

核心方法:Sleep 机制

当模型的上下文窗口满时,进入"睡眠"阶段:

  • 无外部输入,执行 N 次离线递归前向传播
  • 通过学习的局部规则迭代更新 SSM 块中的快速权重
  • 完成后清除 KV 缓存,用更新后的快速权重恢复预测
  • 关键特性:额外计算移至睡眠阶段,保持预测阶段单遍延迟不变

实验验证

任务核心发现
Rule 110 元胞自动机 (t=32步)无循环模型≈随机猜测(10%),4次循环达30%+
Depo 多跳图检索 (k-hop)循环次数增加加速学习,4循环模型开始改善16跳查询
GSM-Infinite 数学推理 (预训练模型)6循环Jet模型在8操作问题上从35.1%→38.8%;4循环Ouro在6操作问题上从41.9%→61.5%
滑动窗口驱逐4循环相比1循环,2操作问题从59.6%→90.5%(52%提升)

关键结论

  • 睡眠时长 N 增加 → 推理深度能力提升,最大收益出现在最难的实例上
  • 这种离线递归不同于测试时训练(梯度下降),也不同于预测时深度递归,而是专门用于记忆巩固
  • 训练吞吐量:窗口间串行性在 L 足够大时影响很小;递归深度 N 线性增加成本

局限

训练时 N 次深层前向/反向传播导致缓慢和不稳定,需借助隐式梯度、截断BPTT等技术缓解。

评论

(0)
未配置登录方式
暂无评论