英文回顾LLM领域2025发生的一切
作者回顾2025大模型:RLVR推理成标配并显著增强工具调用,搜索与编程代理落地,Claude Code等CLI/异步编码代理成为关键产品并推高200美元月费订阅;中国开源权重模型冲上榜首,OpenAI领先被削弱、Gemini强势追赶,同时YOLO自动确认与AI浏览器代理加剧提示注入等安全风险。
浏览最新公开文章、摘要与延伸阅读。肖恩子的知识花园
英文作者回顾2025大模型:RLVR推理成标配并显著增强工具调用,搜索与编程代理落地,Claude Code等CLI/异步编码代理成为关键产品并推高200美元月费订阅;中国开源权重模型冲上榜首,OpenAI领先被削弱、Gemini强势追赶,同时YOLO自动确认与AI浏览器代理加剧提示注入等安全风险。
中文季逸超在访谈中阐释Manus受《The Bitter Lesson》影响选择“智能主导”Agent,不预设流程而以MCP优先、读API文档、网页模拟等降级方式通用接入服务,不自训模型而专注上下文与工程细节叠加,结论是靠持续做对大量小判断扩展能力上限并形成竞争力。
中文作者开源并升级五年知识管理系统为CARD流程,借助AI完成信息过滤、渐进阅读与笔记沉淀入库并用Agent检索联结,结论是知识仍需被管理且应在实践与创作中随需调用,以对抗AI内容泛滥并强化个人判断与输出。
英文作者认为AI代理将成组织的新“钢”,当前仍停留在把聊天机器人外挂到旧流程阶段,需先整合分散上下文并提升可验证性,才能让个人与公司把重复工作交给不眠的“无限脑力”,从而缩短决策链、实现持续运转与规模跃迁,知识经济将由人尺度走向更快但更难以看清的巨型组织。
英文2025年LLM进展由RLVR取代部分预训练、以可验证奖励拉长推理驱动能力提升,模型呈“尖峰式”智能并使基准易被针对而失真,同时Cursor推动编排型应用层、Claude Code确立本地私有环境代理形态,vibe coding降低编程门槛且重塑岗位,Gemini“nano banana”提示多模态GUI方向,结论是能力仍将加速但离AGI尚远且潜力未被充分开发。
英文作者因不满现有编码代理臃肿与不可控,开发极简pi框架,统一多厂商LLM接口与跨模型上下文交接,提供可观测会话与终端UI,采用最小提示和四工具并默认全权限,拒绝内置计划/待办/MCP/后台进程/子代理,基准测试排名具竞争力,证明少即是效且更稳定可控。
英文大公司因人员高流动与频繁调岗使大量改动由对代码库不熟的新手完成,少数“老手”评审非正式且超负荷,工程师在截止期下以能跑为先,组织为灵活调度刻意牺牲长期专长与代码质量,导致明显烂代码持续出现且难由个人改变。
英文为解决长时AI代理跨多轮上下文无记忆导致的一次做太多、进度丢失或过早宣告完成,Claude Agent SDK引入初始化代理搭建init.sh、feature_list.json、claude-progress.txt与git基线,后续编码代理按单一功能增量实现、提交记录并用自动化端到端测试后才标记通过,从而提升连续性、可回滚性与交付质量,后续拟探索更专门的多代理分工。