英文软件工程循环中的人类与智能体
主张人类不应放任代理完成开发也不必逐行审查代码,而应“在环上”设计并管理从需求到交付的多层反馈回路,通过规格、测试、评估与流程指导构建并持续改进代理执行的“harness”,再引入测试指标、性能与故障验证、生产与业务数据驱动代理自我评估与提出改进,形成持续加速的飞轮,以降低时间成本与失控风险并提升系统可靠性与可演进性。
浏览最新公开文章、摘要与延伸阅读。肖恩子的知识花园
英文主张人类不应放任代理完成开发也不必逐行审查代码,而应“在环上”设计并管理从需求到交付的多层反馈回路,通过规格、测试、评估与流程指导构建并持续改进代理执行的“harness”,再引入测试指标、性能与故障验证、生产与业务数据驱动代理自我评估与提出改进,形成持续加速的飞轮,以降低时间成本与失控风险并提升系统可靠性与可演进性。
中文2025中国AI企业超6000家、核心产业规模预计破1.2万亿元,国产开源大模型累计下载超100亿次、AI专利占全球60%;企业集中上市,竞争由“聊天”转向可执行任务的智能体,算力网协同与高质量行业数据加速供给,带动制造与社会治理深度落地,同时以法规与安全认证趋严强化风险管控。
英文工程团队在面试、评审和晋升中常奖励“复杂度叙事”,促使工程师过度设计,简单可用的实现因难被描述而被低估;作者建议个人记录取舍与避免的复杂度、评审时为复杂方案设证据门槛,领导调整评价与公开表彰以让“选择简单”可见,否则组织将持续产出不必要的复杂系统。
英文Cloudflare将LLM接入邮件安全,实时细分海量恶意邮件并锁定“销售外联”式钓鱼,基于语义意图训练专用模型输出风险分数并与信誉等信号联动拦截且持续自我迭代,使防御从依赖用户事后上报转为提前发现盲区,Q4 2025相关漏报日均提交由965降至769并在2026年初继续大幅下降。
英文microgpt以200行无依赖Python把数据集、字符级分词、自写autograd、类GPT-2网络、Adam训练与采样推理压进单文件,在3.2万姓名上训练1000步使loss约3.3降至2.37并生成新名字,结论是GPT训练与生成的算法本质可被极简复现,生产差异主要在规模与工程效率。
中文Hugging Face 发布开源 Skills 技能库,以标准化 Agent Skill format 将指令、脚本和资源封装为自包含文件夹(含带 YAML 元数据的 SKILL.md),让 AI 编程助手可一致执行数据集管理、训练微调、评估、作业运行、实验追踪、UI 构建等机器学习任务,并可在 Claude、Codex、Gemini CLI、Cursor 等主流工具中通过插件或目录方式直接安装使用。
中文Agent-Reach是开源脚手架工具,通过一句话安装把各平台分散的登录、代理、API等配置打通,使AI Agent可在网页、YouTube、Twitter、Reddit、GitHub、B站、小红书等读取与搜索并在部分平台发帖互动,凭据仅本地保存且支持safe与dry-run降低改动风险,结果是以免API付费方式提升联网检索与操作能力但需注意Cookie小号防封。
中文项目汇总社区对OpenClaw的真实用例,覆盖社媒摘要与分析、内容流水线、DevOps自愈、各类生产力助手、研究学习与模拟交易,展示其可自动化日常与工作流程,但相关技能与第三方依赖或有漏洞,使用前需审查代码与权限并避免泄露密钥。
中文阿里开源zvec为基于Proxima的进程内向量数据库,提供毫秒级十亿向量检索、稠密稀疏与多向量查询及语义+结构化混合过滤,免服务器配置可在笔记本到边缘设备运行,支持Python/Node安装后即可建库插入并执行相似度搜索。
中文AIRI 是开源 AI VTuber/虚拟角色项目,目标在本地可自主托管复刻 Neuro-sama 式互动虚拟伴侣,已实现跨 Web/桌面/移动端的实时语音聊天、Minecraft/Factorio 游玩与 Discord/Telegram 多平台聊天,基于 Vue/TS/Rust 结合 WebGPU/WebAssembly 与本地 GPU 推理,集成 LLM、多模态输入输出、VRM/Live2D 驱动与记忆系统,当前早期迭代并持续招募贡献者推进功能完善。