中文6
语言模型需要“睡眠”吗?借助离线循环机制优化在线推理
学习资料
LLM睡眠注意力缓存+3
作者: Sangyun Lee等
发表时间:
LLM Sleep提出在上下文窗口满后暂停输入,执行多次离线递归前向传播,用学习规则更新SSM快速权重,再清空KV缓存继续预测;其核心判断是长上下文失败主要源于被驱逐信息缺乏足够计算转化,而非内存容量不足。实验显示睡眠循环越多,Rule 110、Depo多跳检索、GSM-Infinite和滑动窗口任务的深度推理表现越好,收益集中在难例;代价是训练成本随循环深度线性上升且更不稳定。