中文谷歌 TurboQuant 重磅发布:LLM 键值缓存内存压缩 6 倍、速度提升 8 倍,零精度损失、无需训练!
谷歌推出无训练向量量化算法TurboQuant,结合PolarQuant与QJL将大语言模型推理中的KV Cache内存需求压缩至少6倍,在Nvidia H100上把注意力计算提速最高8倍,并在长上下文测试中实现零精度损失,结果是可直接用于现有模型,显著降低AI部署成本并加速长上下文应用落地。
浏览 业界资讯 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
中文谷歌推出无训练向量量化算法TurboQuant,结合PolarQuant与QJL将大语言模型推理中的KV Cache内存需求压缩至少6倍,在Nvidia H100上把注意力计算提速最高8倍,并在长上下文测试中实现零精度损失,结果是可直接用于现有模型,显著降低AI部署成本并加速长上下文应用落地。
英文Claude Code推出Auto mode,用模型分类器替代大量人工审批,在沙箱高维护与完全跳过权限高风险之间提供折中,借助输入层提示注入探测和输出层两阶段动作审查,自动放行大多数低风险操作并拦截越权、误判、数据外传等危险行为,实测将正常操作误拦率降至0.4%,但对真实危险操作仍有17%漏拦,适合替代无权限模式,不适合高风险场景的人审。
英文OpenAI宣布关闭Sora视频生成应用及相关API,具体下线时间未定,原因是算力与战略重心转向世界模拟研究、机器人及更易盈利的企业级AI服务;Sora虽上线初期登顶应用商店,但用户安装和消费持续下滑,此次停运还导致迪士尼退出合作并取消10亿美元投资。
中文LiteLLM 的 PyPI 版本 1.82.7 和 1.82.8 被植入恶意代码,疑似经 Trivy 所在 CI/CD 链路入侵,安装或导入即可窃取密钥与凭证;PyPI 已隔离并删除相关版本,维护方轮换发布密钥、暂停发布并启动供应链审查。事件暴露其下游依赖面大、未锁版本和自动更新风险高,结论是必须强化沙箱隔离、OIDC 发布、版本锁定和镜像治理。
英文Cloudflare将Dynamic Worker Loader开放公测,允许在运行时为AI生成代码即时创建隔离沙箱,替代启动慢、成本高的容器;其基于V8 isolates,启动仅数毫秒、内存占用更低,可按请求级并发扩展,并支持通过TypeScript API、RPC与HTTP过滤安全调用外部服务;结论是它让大规模、低延迟、相对安全的AI代理执行代码成为可行方案。
中文中国政府网转发《人民日报》援引国家数据局文章,正式将大模型基础计量单位Token定名为“词元”,并披露我国AI行业日均词元调用量突破140万亿次,此举终结业内译名争议,统一技术标准语境,降低沟通与统计成本,为后续政策制定和基础设施量化提供规范基础。
中文Anthropic于3月24日为Claude推出研究预览版Computer Use,向Pro和Max用户开放,支持在macOS桌面端按用户指令自动操作应用、浏览器和文件,并可通过手机端Dispatch远程触发、定时执行任务,执行前需用户确认且可随时中断;其意义在于把Claude从聊天助手推进为可实际代劳的桌面代理,但目前仅限macOS、额度消耗较快,Windows尚未支持。
中文OpenAI与核聚变公司Helion推进超大规模供电合作,计划2030年获得5GW、2035年增至50GW,按单堆50MW计算需累计部署约8000座反应堆,奥尔特曼已辞去Helion董事长以避嫌;此举直指AI算力的电力瓶颈,也被视为核聚变商业化加速和相关产业链升温的明确信号。
英文Anthropic为Claude Code和Claude Cowork加入“使用电脑”能力,可打开文件、操作浏览器和开发工具,在无可用连接器时也能执行任务,操作前会请求许可,但官方提醒勿处理敏感信息;该功能现以研究预览形式向macOS上的Pro和Max订阅者开放,并将根据反馈继续调整。
英文Astral宣布与OpenAI达成协议并加入Codex团队,核心目标仍是提升编程效率。其Ruff、uv、ty等开源Python工具将继续获得支持并保持开放协作,同时与Codex更深度整合,在AI与软件开发前沿扩大影响,推动更高效的软件构建体验。