著名的 o3 “GeoGuessr” 提示词失效了

去年 4 月，Kelsey Piper 发现 OpenAI 的 o3 模型在判断一张照片是在哪里拍摄的这件事上，表现得出奇地好。就像人类的“地理猜图”▶ 高手一样，o3 有时能看着一张平平无奇的海滩照片，准确告诉你它的拍摄地点。下面是 Kelsey 给出的例子：

不少人复现了这一点，效果也不错：虽然不是 100% 命中，但显然比随便让一个人来猜要强得多。这里的教训是：模型能力常常会让我们大吃一惊。o3 在发布后的两周里，直到 Kelsey 发推之前，都没人注意到它在地理定位方面竟然这么强。还有多少我们从未发现的隐藏能力？今天我们又错过了当前模型的哪些能力？

也有人从这件事里得出了另一个结论：所谓“提示词工程”可以解锁全新的能力。这是因为 Kelsey 有一个神奇提示词，是她在长期使用中不断打磨出来的。每当 o3 出错时，她就会问它本来怎样才能避免这个错误，然后把这些内容加入提示词。下面是这个提示词的前 10%，你可以先感受一下：

你正在进行一轮 GeoGuessr 游戏。你的任务是：根据一张静态图片，推断最可能的真实地理位置。请注意，与 GeoGuessr 游戏不同，这些图片并不保证拍摄地点在谷歌街景车能到达的地方：它们是用户提交的，用来测试你的图像定位能力。私人领地、别人的后院，或者一次越野探险，都完全有可能（尽管很多图片都能在街景中找到）。要意识到自己的优势和弱点：按照这个流程，你通常能准确判断出大洲和国家……

这个提示词给很多人留下了深刻印象，他们纷纷尝试使用它，并表示它能正确识别很多图片。但当然，o3 只要配上一句简单的“请认真思考这张照片是在哪里拍的？”提示，也能正确识别很多图片。那么，这个提示词到底有没有帮助？只靠在 ChatGPT 里随便玩玩，很难判断。你需要建立一个图像评测集，让 o3 在其上跑两次：一次用花哨的提示词，一次不用。

所以我就这么做了。我从 Wikimedia Commons、Geograph Britain and Ireland 以及 iNaturalist 中抽取了 200 张图片作为基准测试。你可以在这里查看 AI 生成的摘要，但关键表格如下：

提示词	n	中位数 km	平均值 km	第25百分位 km	第75百分位 km	<=25 km	<=100 km	<=500 km	<=1000 km
默认	200	83.2	440.7	16.4	221.9	58	109	176	182
GeoGuessr 提示词	200	102.3	481.9	18.5	277.8	59	99	172	180

对我来说还有一点很有意思：当时居然没人检查这件事。我花了大约六个小时、差不多 15 美元，就把这个基准测试构建并跑完了。为什么大家在写那些夸 o3 提示词有多厉害的文章时，没有人做这件事呢？

一种比较宽容的解释可能是，这个故事更多是在讲 o3 真正的地理定位能力，而不是那个神奇提示词本身。o3 的定价当时也贵了大约五倍（不过即便只做 40 张图而不是 200 张图的基准测试，也足以让人怀疑这个提示词到底有多大作用）。另外，AI 发展实在太快了。地理定位这个话题大概只火了一周：之后人们讨论的就变成了 GPT-4o 的谄媚性了。另一个原因是，当时的 AI 工具链还没这么好。这个基准测试之所以对我来说这么容易跑，是因为 GPT-5.5 承担了大部分繁重工作。在强智能体出现之前，你本来得自己写这个（很简单的）基准测试。我也没法太苛责别人：当时我自己也没去做。

也许我的基准测试并不够好？这些照片看起来还算合理：大多是各种各样类似地理猜图的道路和风景照片。我本可以试着收集几千张而不是几百张照片，但如果那个神奇提示词真的有明显提升，你仍然应该能在这个规模的基准上看到差异。如果有人愿意去做一个一百美元的地理定位基准，而不是我这个十五美元的版本，我觉得那会是一个很有意思的项目。

最后，让我们用这个基准测试来回答我一直以来的一个问题：gpt-5.4 和 gpt-5.5 是否具备 o3 的地理定位能力？答案显然是否定的。

运行	中位数 km	平均值 km	<=25 km	<=100 km	<=500 km
o3 默认	83.2	440.7	58	109	176
o3 GeoGuessr	102.3	481.9	59	99	172
gpt-5.4 默认	163.3	638.9	26	74	148
gpt-5.5 默认	156.5	645.9	39	77	161

无论 o3 当时究竟有什么让它擅长这项任务的特质，这种能力都没有迁移到新模型上。

编辑：这篇文章在 Hacker News 上引发了一些评论。置顶评论担心模型其实早就见过这些图片，因为它们都是公共领域作品。我考虑过这一点，但觉得没必要专门去找全新的图片：第一，如果这些图像/地点对已经在训练数据里，模型本应表现得更好；第二，即使它们在训练数据里，也仍然能为提示词以及其他模型提供有用的比较数据。我确实确认过这些图片没有 EXIF 元数据，所以我们测试的不是提示词是否会让模型更容易或更不容易作弊。