你的人工智能并非“笨拙”—— 它只是需要更出色的驾驭方式
智能体失效的主因不是模型能力不足,而是缺少明确的系统外壳,可靠方案是用Harness Engineering把模型置于受控执行层中,通过约束行为、外置状态、逐步校验和局部恢复,配合工具截断、模式验证、状态管理、编排与重试机制,避免长流程中的幻觉、格式漂移和整体崩溃。生产级AI竞争力取决于系统设计而非提示技巧。
浏览最新公开文章、摘要与延伸阅读。肖恩子的知识花园
智能体失效的主因不是模型能力不足,而是缺少明确的系统外壳,可靠方案是用Harness Engineering把模型置于受控执行层中,通过约束行为、外置状态、逐步校验和局部恢复,配合工具截断、模式验证、状态管理、编排与重试机制,避免长流程中的幻觉、格式漂移和整体崩溃。生产级AI竞争力取决于系统设计而非提示技巧。
中文Google发布Gemini 3.1 Flash TTS,以低成本提供高质量文本转语音,支持70多种语言和多说话人对话,并用音频标签直接控制风格、语速与情绪切换,面向开发者、企业及Workspace用户落地全球化语音应用,同时通过SynthID水印强化AI音频识别与安全治理。
中文OpenAI更新Agents SDK,提供标准化代理基础设施,使代理可在受控沙盒中读写文件、运行命令、编辑代码并处理长期任务;新增可配置内存、沙盒感知编排、文件系统工具和原生沙盒执行,支持多云与环境可移植;开发者能更安全地将代理从原型扩展到生产,并提升持久运行与弹性扩展能力。
英文Qwen开源Qwen3.6-35B-A3B,采用35B总参数、3B激活参数的MoE架构,重点提升智能体编程与多模态推理,整体明显强于前代Qwen3.5-35B-A3B,并可对标部分27B至31B稠密模型及Claude Sonnet 4.5;模型已提供开源权重、在线体验和API接入,证明高效稀疏模型也能成为通用开源强模型。
中文该工具面向Claude AI,把自然语言系统架构描述自动生成可独立打开的深色主题HTML/SVG架构图,用户安装技能后用文本描述组件与连接即可快速出图并对话式迭代修改,最终降低架构图制作门槛,支持分享、打印、导出PDF和静态托管,适用于多种常见架构场景。
英文Chrome推出Skills功能,允许用户把常用AI提示词保存为可复用的一键工具,在Gemini in Chrome中通过斜杠或加号直接调用,并可跨当前页面与多个标签运行、编辑和同步到已登录桌面设备,同时提供现成技能库;其核心影响是减少重复输入,提升网页问答、比较、筛选等任务效率,并在执行发邮件、加日历等操作前保留确认与安全防护。
英文Claude Code推出研究预览版Routines,用户可预设提示词、代码仓库和连接器,并通过定时、API或GitHub事件自动触发,在云端独立运行,无需自管cron和基础设施;其核心价值是把开发、告警分诊、部署验证、PR审查等流程封装为自动化任务,降低运维成本并提升团队响应效率,目前面向指定订阅用户开放且有每日运行额度限制。
英文Anthropic未公开发布的安全模型Mythos经第三方验证,已能在复杂企业网络攻击模拟中显著超越现有模型,且随token预算增加仍持续提升,这意味着未来系统加固本质上是与攻击者比拼谁投入更多token找漏洞,将推动开源复用更有安全优势,并让软件开发流程新增“加固”阶段,安全成本最终由漏洞市场价值决定。
英文OpenAI扩大可信网络安全访问计划,向经验证的个人和团队开放更高权限,并推出为防御场景微调的GPT‑5.4‑Cyber,在加强身份验证和分级管控下提升漏洞发现、修复和逆向分析能力;其结论是让防御能力随模型能力同步扩张,广泛赋能合法防御者,同时压缩滥用风险。