Sangyun Lee等 作者

浏览作者 Sangyun Lee等 的公开文章、摘要与延伸阅读。肖恩子的知识花园

作者:Sangyun Lee等排序:发表时间倒序
语言模型需要“睡眠”吗?借助离线循环机制优化在线推理中文
6

语言模型需要“睡眠”吗?借助离线循环机制优化在线推理

学习资料
LLM睡眠注意力缓存+3
作者: Sangyun Lee等
发表时间

LLM Sleep提出在上下文窗口满后暂停输入,执行多次离线递归前向传播,用学习规则更新SSM快速权重,再清空KV缓存继续预测;其核心判断是长上下文失败主要源于被驱逐信息缺乏足够计算转化,而非内存容量不足。实验显示睡眠循环越多,Rule 110、Depo多跳检索、GSM-Infinite和滑动窗口任务的深度推理表现越好,收益集中在难例;代价是训练成本随循环深度线性上升且更不稳定。

每页显示 1
上一页 1 / 1 下一页