英文3
microgpt: 一个最小化的 GPT 实现
开源项目
作者: Andrej Karpathy
发表时间:
microgpt以200行无依赖Python把数据集、字符级分词、自写autograd、类GPT-2网络、Adam训练与采样推理压进单文件,在3.2万姓名上训练1000步使loss约3.3降至2.37并生成新名字,结论是GPT训练与生成的算法本质可被极简复现,生产差异主要在规模与工程效率。
浏览作者 Andrej Karpathy 的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文microgpt以200行无依赖Python把数据集、字符级分词、自写autograd、类GPT-2网络、Adam训练与采样推理压进单文件,在3.2万姓名上训练1000步使loss约3.3降至2.37并生成新名字,结论是GPT训练与生成的算法本质可被极简复现,生产差异主要在规模与工程效率。
英文作者称自去年12月起AI编码代理从几乎不可用跃迁为可独立推进长任务,示例中其在约30分钟内完成环境部署、模型下载测试、服务与界面搭建并提交报告,结果编程从手写代码转向用自然语言指派并行代理并审核,工程师重心变为拆解、判断与编排,开发流程被显著重塑但仍需监督且更适合可验证任务。
英文2025年LLM进展由RLVR取代部分预训练、以可验证奖励拉长推理驱动能力提升,模型呈“尖峰式”智能并使基准易被针对而失真,同时Cursor推动编排型应用层、Claude Code确立本地私有环境代理形态,vibe coding降低编程门槛且重塑岗位,Gemini“nano banana”提示多模态GUI方向,结论是能力仍将加速但离AGI尚远且潜力未被充分开发。