技术博客 全部文章

浏览 技术博客 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园

分类:技术博客排序:发表时间倒序
构建 Claude Code 的经验:我们如何运用技能英文
7

构建 Claude Code 的经验:我们如何运用技能

技术博客
作者: Thariq
发表时间

Anthropic基于数百个Claude Code技能的实践指出,技能不是单纯文档,而是可含脚本、数据和钩子的文件夹,最有效的方向集中在知识参考、验证、数据分析、流程自动化、脚手架、代码质量、部署、Runbook和运维;写好技能的关键是聚焦非显然信息、沉淀易错点、善用文件系统渐进暴露、保留灵活性,并通过仓库或插件市场分发和监测使用,结论是技能应从小规模迭代沉淀,持续优化才能真正提升开发效率。

我是如何借助大语言模型编写软件的英文
1

我是如何借助大语言模型编写软件的

技术博客
作者: Stavros
发表时间

作者认为自己真正热爱的是“做出东西”而非亲自写代码,随着LLM编程能力提升,他通过“架构师制定方案、开发者实现、多个模型交叉评审”的工作流持续构建真实项目,在熟悉技术栈时能以更低缺陷率、更快速度产出并保持对系统架构的掌控,结论是LLM没有取代工程能力,而是把人的核心价值转向架构判断、技术理解与决策把关。

我研读了 Hermes Agent 的记忆系统,它弥补了 OpenClaw 的设计缺陷英文
9

我研读了 Hermes Agent 的记忆系统,它弥补了 OpenClaw 的设计缺陷

技术博客
作者: Manthan Gupta
发表时间

Hermes采用四层记忆架构,小型MEMORY.md和USER.md保存稳定高价值事实,SQLite会话库按需检索历史,Skills沉淀可复用流程,Honcho可选扩展深层用户建模;其关键动作是冻结系统提示、把大部分记忆转移到工具检索,并在压缩上下文前先提炼持久信息,结果是在控制成本与缓存稳定性的同时保持连续性与实用性。

Harness Engineering — Agent 不好用,也许不是模型的问题中文
20

Harness Engineering — Agent 不好用,也许不是模型的问题

技术博客
作者: Chaofa Yuan
发表时间

Harness指模型权重外的一切系统设计,涵盖提示、上下文、工具、沙箱、中间件与子代理等,其核心不是反复改prompt,而是改环境让错误难以再发生;实验证明同一模型仅优化自检、环境注入、死循环检测和推理强度调度,成绩可从Top30升至Top5;结论是Agent可靠性主要取决于Harness,持久价值在缓存、存储、隔离等受物理约束的设计。

你不知道的 Claude Code:架构、治理与工程实践中文
6

你不知道的 Claude Code:架构、治理与工程实践

技术博客
作者: Tw93
发表时间

作者基于半年重度使用Claude Code的踩坑,总结其六层系统与代理循环,指出质量下降多源于上下文污染、工具与规则堆叠及缺乏验证闭环,提出用精简CLAUDE.md分层加载、Hooks强制约束、Subagent隔离探索、面向缓存设计Prompt并配套Verifier与/clear /compact等治理,最终结论是以“可验收定义+约束下自治”替代单纯调prompt,并提供/health技能做配置体检。

自主上下文压缩英文
6

自主上下文压缩

技术博客
作者: LangChain
发表时间

Deep Agents在Python SDK与CLI新增“自主上下文压缩”工具,模型可在任务边界、提炼结论前后、读取或生成大量内容及进入复杂多步流程时主动触发,将旧消息按规则总结并保留最近约10%对话,以缓解上下文窗口限制与context rot,减少固定阈值压缩带来的时机不佳并提升长程交互代理的稳定性与可用性。

Agent Harness 解析英文
8

Agent Harness 解析

技术博客
Agent架构Harness工程+3
作者: Vivek Trivedy
发表时间

智能体由模型与"Harness"构成,后者是包裹模型的代码、配置与执行逻辑系统,赋予其状态持久化、工具执行、反馈循环等能力;核心组件包括文件系统、沙箱环境、代码执行工具、记忆与搜索机制、上下文压缩及长程自主执行模式,Harness工程通过设计系统来弥补模型原生缺陷并放大其智能效用,且随模型能力进化持续迭代优化。

推理模型难以掌控思维链,但这反而是件好事中文
2

推理模型难以掌控思维链,但这反而是件好事

技术博客
作者: OpenAI
发表时间

研究用开源套件CoT-Control在13个推理模型、1.3万余任务上测试思维链可控性,结果显示前沿模型普遍难以按指令重塑或遮蔽推理过程,可控性多低于15.4%且最低0.1%,规模增大略升但推理更长与后训练/RL增加会下降,被告知在监测下仅小幅提升,结论是当前CoT可控性不构成对CoT监测的主要风险但需持续评估并在系统卡同步披露相关指标。

智能体框架的深层剖析英文
8

智能体框架的深层剖析

技术博客
作者: LangChain
发表时间

Agent由模型与Harness组成,Harness指除模型外的代码与执行机制,通过提供持久状态、文件系统与Git、工具与代码执行、沙箱环境、搜索与记忆注入、上下文压缩与输出卸载、规划与自验证循环及编排钩子,把仅能输入输出文本的模型变成可长期自主完成任务的工作引擎,并与模型后训练共同演化但也可能导致对特定工具逻辑过拟合,因此优化Harness本身可显著改变同一模型的效果。

评估 Skills英文
4

评估 Skills

技术博客
作者: LangChain
发表时间

LangChain为Codex、Claude Code等编码代理构建按需加载的技能,并提出评测管线:在一致沙箱中设定可度量任务,对比无技能与不同拆分技能的表现,用LangSmith全程追踪行动与失败原因并迭代,结果任务完成率由9%升至82%,结论是技能必须依赖系统化评测与可观测性才能稳定增益。

每页显示 77
上一页 4 / 8 下一页