英文2025 年大语言模型年度回顾
2025年LLM进展由RLVR取代部分预训练、以可验证奖励拉长推理驱动能力提升,模型呈“尖峰式”智能并使基准易被针对而失真,同时Cursor推动编排型应用层、Claude Code确立本地私有环境代理形态,vibe coding降低编程门槛且重塑岗位,Gemini“nano banana”提示多模态GUI方向,结论是能力仍将加速但离AGI尚远且潜力未被充分开发。
浏览最新公开文章、摘要与延伸阅读。肖恩子的知识花园
英文2025年LLM进展由RLVR取代部分预训练、以可验证奖励拉长推理驱动能力提升,模型呈“尖峰式”智能并使基准易被针对而失真,同时Cursor推动编排型应用层、Claude Code确立本地私有环境代理形态,vibe coding降低编程门槛且重塑岗位,Gemini“nano banana”提示多模态GUI方向,结论是能力仍将加速但离AGI尚远且潜力未被充分开发。
英文作者因不满现有编码代理臃肿与不可控,开发极简pi框架,统一多厂商LLM接口与跨模型上下文交接,提供可观测会话与终端UI,采用最小提示和四工具并默认全权限,拒绝内置计划/待办/MCP/后台进程/子代理,基准测试排名具竞争力,证明少即是效且更稳定可控。
英文大公司因人员高流动与频繁调岗使大量改动由对代码库不熟的新手完成,少数“老手”评审非正式且超负荷,工程师在截止期下以能跑为先,组织为灵活调度刻意牺牲长期专长与代码质量,导致明显烂代码持续出现且难由个人改变。
英文为解决长时AI代理跨多轮上下文无记忆导致的一次做太多、进度丢失或过早宣告完成,Claude Agent SDK引入初始化代理搭建init.sh、feature_list.json、claude-progress.txt与git基线,后续编码代理按单一功能增量实现、提交记录并用自动化端到端测试后才标记通过,从而提升连续性、可回滚性与交付质量,后续拟探索更专门的多代理分工。
英文Deep Agents让代理通过文件系统读写、编辑、搜索文件,把工具返回的大段内容、任务计划和技能指令写入并按需用grep/glob回读,缓解上下文窗口与token膨胀、提升冷门信息检索与多步执行可靠性,并可在用户反馈后更新自身指令实现持续学习。
英文作者认为OOP未消失而是迁移到进程与网络边界,微服务用接口契约与隔离替代类与类型;但跨服务调用引入序列化、调度与更多故障模式,成本与复杂度被成倍放大,结论是替代体系比OOP更不可靠。
中文出海SaaS新客占比约两成、续费占八成,市场趋饱和且死亡率高;要提高胜算需全栈与英语能力、至少半年现金和抗压心态,选细分需求用成熟栈快速验证并尽早收费,靠SEO与公开构建获客,避免过度打磨、早投广告和合规疏漏,才能争取月入一到两万美元的小规模收入。
英文LLM无指导生成网页常陷入Inter字体、紫色渐变等同质化,源于采样时的分布收敛;将排除默认审美并强化排版、主题、动效、背景及多文件React构建等规则封装为按需加载的Skills复用,可在不增加全局上下文负担下显著提升前端品牌辨识度与生成artifact的功能质量。
团队提出提示词工程最佳实践,要求用清晰明确且具体的指令并补充目的与上下文、必要时给示例与格式约束并允许表达不确定以减少幻觉,复杂任务用预填充、链式思考或提示链拆分流程,从而降低反复沟通成本并更稳定产出符合需求的结果。
英文梳理编译器后端可选目标:直出机器码或经IR走LLVM/GCC/QBE,也可转译到C或JS/Lua,或生成JVM/CLR/BEAM字节码、Wasm/WASI并借助元追踪框架构建JIT,结论以玩笑收尾称要把C++编译成JSFuck。