构建 Claude Code 的经验:我们如何运用技能
Anthropic基于数百个Claude Code技能的实践指出,技能不是单纯文档,而是可含脚本、数据和钩子的文件夹,最有效的方向集中在知识参考、验证、数据分析、流程自动化、脚手架、代码质量、部署、Runbook和运维;写好技能的关键是聚焦非显然信息、沉淀易错点、善用文件系统渐进暴露、保留灵活性,并通过仓库或插件市场分发和监测使用,结论是技能应从小规模迭代沉淀,持续优化才能真正提升开发效率。
浏览 技术博客 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
Anthropic基于数百个Claude Code技能的实践指出,技能不是单纯文档,而是可含脚本、数据和钩子的文件夹,最有效的方向集中在知识参考、验证、数据分析、流程自动化、脚手架、代码质量、部署、Runbook和运维;写好技能的关键是聚焦非显然信息、沉淀易错点、善用文件系统渐进暴露、保留灵活性,并通过仓库或插件市场分发和监测使用,结论是技能应从小规模迭代沉淀,持续优化才能真正提升开发效率。
英文作者认为自己真正热爱的是“做出东西”而非亲自写代码,随着LLM编程能力提升,他通过“架构师制定方案、开发者实现、多个模型交叉评审”的工作流持续构建真实项目,在熟悉技术栈时能以更低缺陷率、更快速度产出并保持对系统架构的掌控,结论是LLM没有取代工程能力,而是把人的核心价值转向架构判断、技术理解与决策把关。
英文Hermes采用四层记忆架构,小型MEMORY.md和USER.md保存稳定高价值事实,SQLite会话库按需检索历史,Skills沉淀可复用流程,Honcho可选扩展深层用户建模;其关键动作是冻结系统提示、把大部分记忆转移到工具检索,并在压缩上下文前先提炼持久信息,结果是在控制成本与缓存稳定性的同时保持连续性与实用性。
Harness指模型权重外的一切系统设计,涵盖提示、上下文、工具、沙箱、中间件与子代理等,其核心不是反复改prompt,而是改环境让错误难以再发生;实验证明同一模型仅优化自检、环境注入、死循环检测和推理强度调度,成绩可从Top30升至Top5;结论是Agent可靠性主要取决于Harness,持久价值在缓存、存储、隔离等受物理约束的设计。
中文作者基于半年重度使用Claude Code的踩坑,总结其六层系统与代理循环,指出质量下降多源于上下文污染、工具与规则堆叠及缺乏验证闭环,提出用精简CLAUDE.md分层加载、Hooks强制约束、Subagent隔离探索、面向缓存设计Prompt并配套Verifier与/clear /compact等治理,最终结论是以“可验收定义+约束下自治”替代单纯调prompt,并提供/health技能做配置体检。
英文智能体由模型与"Harness"构成,后者是包裹模型的代码、配置与执行逻辑系统,赋予其状态持久化、工具执行、反馈循环等能力;核心组件包括文件系统、沙箱环境、代码执行工具、记忆与搜索机制、上下文压缩及长程自主执行模式,Harness工程通过设计系统来弥补模型原生缺陷并放大其智能效用,且随模型能力进化持续迭代优化。
中文研究用开源套件CoT-Control在13个推理模型、1.3万余任务上测试思维链可控性,结果显示前沿模型普遍难以按指令重塑或遮蔽推理过程,可控性多低于15.4%且最低0.1%,规模增大略升但推理更长与后训练/RL增加会下降,被告知在监测下仅小幅提升,结论是当前CoT可控性不构成对CoT监测的主要风险但需持续评估并在系统卡同步披露相关指标。
英文Agent由模型与Harness组成,Harness指除模型外的代码与执行机制,通过提供持久状态、文件系统与Git、工具与代码执行、沙箱环境、搜索与记忆注入、上下文压缩与输出卸载、规划与自验证循环及编排钩子,把仅能输入输出文本的模型变成可长期自主完成任务的工作引擎,并与模型后训练共同演化但也可能导致对特定工具逻辑过拟合,因此优化Harness本身可显著改变同一模型的效果。