全部文章

浏览最新公开文章、摘要与延伸阅读。肖恩子的知识花园

排序:发表时间倒序
SWE-rebench排行榜中文
8

SWE-rebench排行榜

资源推荐
作者: SWE-rebench
发表时间

SWE-rebench是面向软件工程LLM的持续更新去污染基准与排行榜,按Resolved Rate、Pass@5、单题成本与token等指标评估模型,数据取自43个仓库48题并可调时间窗,提供污染标记;截至2026-01-02 Claude Code以52.9%解决率、70.8% Pass@5居首且单题$3.50,结论是模型差异显著且成功率与成本效率存在权衡。

Harness 工程:在以智能体为先的世界中利用 Codex英文
16

Harness 工程:在以智能体为先的世界中利用 Codex

技术博客
作者: OpenAI
发表时间

团队用Codex在无人工写码约束下5个月从空仓库交付内测产品,生成约百万行代码与1500次PR,耗时约手写的1/10;人类转为设计脚手架、文档地图、UI与可观测反馈回路并用lint强制架构与品味,使代理可端到端修复发布,但需以“黄金原则”定期清理漂移,长期一致性仍待验证。

最后的瓶颈英文
6

最后的瓶颈

佳文共赏
作者: Armin Ronacher
发表时间

AI加速写码引发PR激增与审查吞吐不足,开源和“AI优先”团队出现无法分诊、过期难合并与贡献者失去动力的积压;要维持系统只能限流与更多机器自检,但由于责任不可由机器承担,人必须理解并签署交付,人仍是最终瓶颈。

可视化神经网络学习网站中文
9

可视化神经网络学习网站

学习资料
作者: Damar
发表时间

该网站由Damar创建,以互动可视化方式讲解神经网络基础,面向初学者。内容从神经网络定义与工作原理入手,以手写数字识别为例说明输入像素如何转为数据、神经元依据权重与阈值决定激活,并在多层结构中逐级提取模式,最终输出识别结果。网站强调权重与阈值的重要性,并提及学习与优化仍较复杂、作者未来将继续完善。整体语言简明、操作直观,适合入门学习与激发进一步探索。

成瘾者:色情、赌博与Vibe Coding中文
11

成瘾者:色情、赌博与Vibe Coding

佳文共赏
作者: WquGuru
发表时间

作者将Vibe Coding与色情、赌博并置,指出三者都靠不确定奖励与即时反馈制造“最后一次”的循环,用“我在进步/学习”的幻觉掩盖对孤独、焦虑、疲惫等痛苦的逃避,结果是时间与关系被吞噬、深度思考与真实成长退化;破局关键在识别HALT触发与“子人格”念头,暂停冲动、转向真实联结与长期目标,重建身份与生活系统而非仅靠意志力。

Uber的限流系统英文
4

Uber的限流系统

技术博客
作者: Uber
发表时间

Uber在服务网格内推全局限流GRL,采用分层聚合由控制平面下发丢弃比例的概率限流取代Redis计数与令牌桶,并用RLC基于历史流量自动计算并更新配额,结果降低端到端延迟与运维成本、释放存储资源,在流量峰值与攻击下提升平台稳定性与公平性。

关于智能体框架与智能体可观测性英文
12

关于智能体框架与智能体可观测性

技术博客
作者: LangChain
发表时间

作者认为智能体框架不会消失但必须随模型能力同步演进,LangChain体系从链式调用到LangGraph运行时再到DeepAgents实现长任务规划与工具循环并按场景推荐使用;同时推出独立于各框架的LangSmith,通过追踪与评测提升调试监控与上线质量,结论是简单LLM请求可不必上框架但生产级必须具备可观测性。

OpenAI 智能体工程指南:10 条实战技巧和 3 种构建模式中文
9

OpenAI 智能体工程指南:10 条实战技巧和 3 种构建模式

技术博客
作者: 宝玉
发表时间

OpenAI 发布智能体工程手册,提出用Skills按需加载流程、Shell提供执行环境、Compaction自动压缩上下文,并用清晰技能描述与负面示例提升多技能路由可靠性,实测可支撑百万级token与多次工具调用的长期运行且促成跨厂商技能标准化。

在谷歌 14 年的 14 个额外经验教训英文
19

在谷歌 14 年的 14 个额外经验教训

佳文共赏
作者: Addy Osmani
发表时间

作者基于谷歌经历总结团队工程要诀:只做高价值问题,会议先明确决策诉求,用“周二某人做X”替代空泛意向,权责清晰以加速决策,可靠性与可观测性纳入完成标准,跨团队靠清晰接口与带方案升级,反英雄并警惕扩编带来的协作边,迁移要有人负责收尾与退役期限,AI时代品味与信任决定交付速度。

每页显示 351
上一页 29 / 36 下一页