英文著名的 o3 “GeoGuessr” 提示词失效了
作者用200张来自Wikimedia、Geograph和iNaturalist的图片复测o3地理定位能力,比较普通提示与流行“GeoGuessr神提示”,结果显示神提示未提升表现,反而中位误差更高;o3确有强定位能力,但gpt-5.4、gpt-5.5未继承,结论是模型隐藏能力需用基准验证,不能凭试用和提示叙事判断。
浏览最新公开文章、摘要与延伸阅读。肖恩子的知识花园
英文作者用200张来自Wikimedia、Geograph和iNaturalist的图片复测o3地理定位能力,比较普通提示与流行“GeoGuessr神提示”,结果显示神提示未提升表现,反而中位误差更高;o3确有强定位能力,但gpt-5.4、gpt-5.5未继承,结论是模型隐藏能力需用基准验证,不能凭试用和提示叙事判断。
Codex正从代码助手扩展为通用计算机工作执行系统,依托持久线程、语音输入、任务纠偏与排队、浏览器/桌面/MCP连接器、自动化、Goals、侧边栏和共享记忆,持续处理跨代码库、网页、Slack、Gmail、文档等工作流,用户负责设定目标、验证结果和最终决策。
英文AI辅助编程提升产出速度,却把开发者推入更高强度的提示、审查、调试和返工循环,削弱写代码带来的成就感、掌控感与系统理解,造成任务量膨胀、认知疲劳和职业认同动摇。可持续使用AI的关键不是追求全天候效率,而是重建边界、保留手写与思考时间、控制任务节奏,并把AI作为辅助而非压力放大器。
中文Ralph是开源自主AI代理循环工具,用全新AI实例反复调用Amp或Claude Code执行PRD用户故事,并以git历史、progress.txt、prd.json持久化记忆,避免上下文衰减;其流程为生成PRD、转为任务JSON、循环实现测试提交,任务需小粒度且有质量反馈,全部passes为true后自动完成。
中文Agno是agno-agi推出的开源Python SDK,定位为AI智能体平台基础设施而非单一框架,支持多框架代理构建,并通过生产级API、SSE、WebSocket、存储、记忆、知识库、追踪和100+集成实现运行管理,提供RBAC、多租户、数据隔离和自有云部署,帮助企业掌控代理技术栈、数据与权限。
中文AI正把创始人从亲自执行者推向Agent编排者,使非技术创始人也能交付生产级应用,10人独角兽具备可规划性。创业路径被重构为四阶段:Idea先验证问题与假设,MVP用最小产品、持久上下文和安全审查证明需求,Launch把牵引力转为可重复增长并系统化运营,Scale依靠领域深度、数据飞轮和工作流锁定构建护城河。AI降低了构建成本,但原型不等于验证,长期优势来自判断力、编排能力与可积累资产。
英文真正有效的借鉴不是复制表面风格,而是拆解作品为何成立;创作者应通过长期转录、分析和跨领域吸收,理解结构、判断与取舍,再让多重影响相互碰撞生成个人表达。AI让表层模仿变得廉价,稀缺的是隐性判断和扎实学徒期,绕过过程只能得到产物,无法形成原创能力。
中文OpenAI、Anthropic、Google正集中押注FDE岗位:OpenAI以40亿美元外部资金成立部署公司并收购150人团队,Anthropic筹建独立企业AI服务公司,Google则压缩面试加速自招。FDE负责进驻客户现场,把AI模型接入真实业务。AI竞争重心正从模型能力转向企业落地,FDE成为商业化关键,但独立公司模式可能使其更接近咨询而非产品反馈枢纽。