英文我是如何借助大语言模型编写软件的
作者认为自己真正热爱的是“做出东西”而非亲自写代码,随着LLM编程能力提升,他通过“架构师制定方案、开发者实现、多个模型交叉评审”的工作流持续构建真实项目,在熟悉技术栈时能以更低缺陷率、更快速度产出并保持对系统架构的掌控,结论是LLM没有取代工程能力,而是把人的核心价值转向架构判断、技术理解与决策把关。
浏览 技术博客 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文作者认为自己真正热爱的是“做出东西”而非亲自写代码,随着LLM编程能力提升,他通过“架构师制定方案、开发者实现、多个模型交叉评审”的工作流持续构建真实项目,在熟悉技术栈时能以更低缺陷率、更快速度产出并保持对系统架构的掌控,结论是LLM没有取代工程能力,而是把人的核心价值转向架构判断、技术理解与决策把关。
英文Hermes采用四层记忆架构,小型MEMORY.md和USER.md保存稳定高价值事实,SQLite会话库按需检索历史,Skills沉淀可复用流程,Honcho可选扩展深层用户建模;其关键动作是冻结系统提示、把大部分记忆转移到工具检索,并在压缩上下文前先提炼持久信息,结果是在控制成本与缓存稳定性的同时保持连续性与实用性。
Harness指模型权重外的一切系统设计,涵盖提示、上下文、工具、沙箱、中间件与子代理等,其核心不是反复改prompt,而是改环境让错误难以再发生;实验证明同一模型仅优化自检、环境注入、死循环检测和推理强度调度,成绩可从Top30升至Top5;结论是Agent可靠性主要取决于Harness,持久价值在缓存、存储、隔离等受物理约束的设计。
中文作者基于半年重度使用Claude Code的踩坑,总结其六层系统与代理循环,指出质量下降多源于上下文污染、工具与规则堆叠及缺乏验证闭环,提出用精简CLAUDE.md分层加载、Hooks强制约束、Subagent隔离探索、面向缓存设计Prompt并配套Verifier与/clear /compact等治理,最终结论是以“可验收定义+约束下自治”替代单纯调prompt,并提供/health技能做配置体检。
中文研究用开源套件CoT-Control在13个推理模型、1.3万余任务上测试思维链可控性,结果显示前沿模型普遍难以按指令重塑或遮蔽推理过程,可控性多低于15.4%且最低0.1%,规模增大略升但推理更长与后训练/RL增加会下降,被告知在监测下仅小幅提升,结论是当前CoT可控性不构成对CoT监测的主要风险但需持续评估并在系统卡同步披露相关指标。
英文Agent由模型与Harness组成,Harness指除模型外的代码与执行机制,通过提供持久状态、文件系统与Git、工具与代码执行、沙箱环境、搜索与记忆注入、上下文压缩与输出卸载、规划与自验证循环及编排钩子,把仅能输入输出文本的模型变成可长期自主完成任务的工作引擎,并与模型后训练共同演化但也可能导致对特定工具逻辑过拟合,因此优化Harness本身可显著改变同一模型的效果。
英文AI代理技能数量激增但多数未做评测且常由AI生成,文中给出落地评测方法:先量化成功标准,再用10–20条提示集驱动代理运行并以正则等确定性检查或LLM裁判评分持续迭代,案例通过改写触发描述与将警告改为明确指令把Gemini技能通过率从66.7%提升到100%,结论是用评测防止回退并据结果决定技能维护或退役。
英文Cloudflare将LLM接入邮件安全,实时细分海量恶意邮件并锁定“销售外联”式钓鱼,基于语义意图训练专用模型输出风险分数并与信誉等信号联动拦截且持续自我迭代,使防御从依赖用户事后上报转为提前发现盲区,Q4 2025相关漏报日均提交由965降至769并在2026年初继续大幅下降。