英文改进 skill-creator:测试、衡量并优化 Agent 技能
Anthropic升级skill-creator,支持无代码编写eval与基准测试,多代理并行与对比代理做A/B评估,并优化技能描述以减少误触发与漏触发,帮助作者在模型迭代中监测回归、判断技能是否仍必要并稳定提升效果,现已在Claude.ai、Cowork与插件/仓库上线。
浏览作者 Anthropic 的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文Anthropic升级skill-creator,支持无代码编写eval与基准测试,多代理并行与对比代理做A/B评估,并优化技能描述以减少误触发与漏触发,帮助作者在模型迭代中监测回归、判断技能是否仍必要并稳定提升效果,现已在Claude.ai、Cowork与插件/仓库上线。
英文Claude支持从其他AI导入偏好与上下文,用户将官方提示词粘贴到任意AI获取整理结果,再复制到Claude记忆设置即可一键更新记忆并无缝续聊,该记忆功能覆盖所有付费方案。
英文Claude Code跨会话记忆分自动记忆与CLAUDE.md体系,启动时加载工作目录向上CLAUDE.md全量及MEMORY.md前200行,子目录内容按需读取且指令越具体优先级越高,用户可用/memory编辑并用设置或环境变量开关,CLAUDE.md支持@导入并可用.claude/rules按路径分模块定规则,使组织团队与个人偏好长期一致且可控。
英文AI通过自动读取COBOL代码库,梳理隐性依赖与数据流、补全工作流文档并评估迁移风险,配合工程师制定路线与测试,在逐组件迁移和并行验证中把现代化从多年高成本顾问工程压缩为数季度可控实施。
英文Anthropic发布Claude Sonnet 4.6并在claude.ai等产品设为默认模型,价格沿用4.5且提供1M上下文窗口测试版,编码、电脑操作、长文本推理与代理规划能力大幅提升并在部分任务接近或优于Opus 4.5,安全评估显示总体不低于既有模型且更抗提示注入,配套上线上下文压缩与更高效的搜索过滤、代码执行等工具,使更多高价值办公与开发任务以更低成本落地。
英文研究员提出“代理团队”让多实例Claude在无人工干预下并行写代码,借助循环脚手架、任务锁与高质量测试,两周约2000次会话耗2万美元生成10万行Rust C编译器,可编译Linux 6.9并覆盖x86/ARM/RISC-V,验证复杂项目可自主完成但在冲突、性能与可靠性上接近模型极限且存在安全风险。
英文随机对照试验让52名开发者学习Trio并完成编码任务,AI组耗时仅快约2分钟且无统计显著,但随即测验平均分50%较手写组67%低17%且调试题差距最大,表明AI提效可能削弱新技能掌握与排错能力,需通过解释式提问用法与组织策略降低认知外包。
英文为解决长时AI代理跨多轮上下文无记忆导致的一次做太多、进度丢失或过早宣告完成,Claude Agent SDK引入初始化代理搭建init.sh、feature_list.json、claude-progress.txt与git基线,后续编码代理按单一功能增量实现、提交记录并用自动化端到端测试后才标记通过,从而提升连续性、可回滚性与交付质量,后续拟探索更专门的多代理分工。
英文LLM无指导生成网页常陷入Inter字体、紫色渐变等同质化,源于采样时的分布收敛;将排除默认审美并强化排版、主题、动效、背景及多文件React构建等规则封装为按需加载的Skills复用,可在不增加全局上下文负担下显著提升前端品牌辨识度与生成artifact的功能质量。
团队提出提示词工程最佳实践,要求用清晰明确且具体的指令并补充目的与上下文、必要时给示例与格式约束并允许表达不确定以减少幻觉,复杂任务用预填充、链式思考或提示链拆分流程,从而降低反复沟通成本并更稳定产出符合需求的结果。