去年 4 月,Kelsey Piper 发现 OpenAI 的 o3 模型在判断一张照片是在哪里拍摄的这件事上,表现得出奇地好。就像人类的“地理猜图”▶ 高手一样,o3 有时能看着一张平平无奇的海滩照片,准确告诉你它的拍摄地点。下面是 Kelsey 给出的例子:

不少人复现了这一点,效果也不错:虽然不是 100% 命中,但显然比随便让一个人来猜要强得多。这里的教训是:模型能力常常会让我们大吃一惊。o3 在发布后的两周里,直到 Kelsey 发推之前,都没人注意到它在地理定位方面竟然这么强。还有多少我们从未发现的隐藏能力?今天我们又错过了当前模型的哪些能力?
也有人从这件事里得出了另一个 结论:所谓“提示词工程”可以解锁全新的能力。这是因为 Kelsey 有一个神奇提示词,是她在长期使用中不断打磨出来的。每当 o3 出错时,她就会问它本来怎样才能避免这个错误,然后把这些内容加入提示词。下面是这个提示词的前 10%,你可以先感受一下:
你正在进行一轮 GeoGuessr 游戏。你的任务是:根据一张静态图片,推断最可能的真实地理位置。请注意,与 GeoGuessr 游戏不同,这些图片并不保证拍摄地点在谷歌街景车能到达的地方:它们是用户提交的,用来测试你的图像定位能力。私人领地、别人的后院,或者一次越野探险,都完全有可能(尽管很多图片都能在街景中找到)。要意识到自己的优势和弱点:按照这个流程,你通常能准确判断出大洲和国家……
这个提示词给很多人留下了深刻印象,他们纷纷尝试 使用 它,并表示它能正确识别很多图片。但当然,o3 只要配上一句简单的“请认真思考这张照片是在哪里拍的?”提示,也能正确识别很多图片。那么,这个提示词到底有没有帮助?只靠在 ChatGPT 里随便玩玩,很难判断。你需要建立一个图像评测集,让 o3 在其上跑两次:一次用花哨的提示词,一次不用。
所以我就这么做了。我从 Wikimedia Commons、Geograph Britain and Ireland 以及 iNaturalist 中抽取了 200 张图片作为基准测试。你可以在这里查看 AI 生成的摘要,但关键表格如下:
| 提示词 | n | 中位数 km | 平均值 km | 第25百分位 km | 第75百分位 km | <=25 km | <=100 km | <=500 km | <=1000 km |
|---|---|---|---|---|---|---|---|---|---|
| 默认 | 200 | 83.2 | 440.7 | 16.4 | 221.9 | 58 | 109 | 176 | 182 |
| GeoGuessr 提示词 | 200 | 102.3 | 481.9 | 18.5 | 277.8 | 59 | 99 | 172 | 180 |
对我来说还有一点很有意思:当时居然没人检查这件事。我花了大约六个小时、差不多 15 美元,就把这个基准测试构建并跑完了。为什么大家在写那些夸 o3 提示词有多厉害的文章时,没有人做这件事呢?
一种比较宽容的解释可能是,这个故事更多是在讲 o3 真正的地理定位能力,而不是那个神奇提示词本身。o3 的定价当时也贵了大约五倍(不过即便只做 40 张图而不是 200 张图的基准测试,也足以让人怀疑这个提示词到底有多大作用)。另外,AI 发展实在太快了。地理定位这个话题大概只火了一周:之后人们讨论的就变成了 GPT-4o 的谄媚性了。另一个原因是,当时的 AI 工具链还没这么好。这个基准测试之所以对我来说这么容易跑,是因为 GPT-5.5 承担了大部分繁重工作。在强智能体出现之前,你本来得自己写这个(很简单的)基准测试。我也没法太苛责别人:当时我自己也没去做。
也许我的基准测试并不够好?这些照片看起来还算合理:大多是各种各样类似地理猜图的道路和风景照片。我本可以试着收集几千张而不是几百张照片,但如果那个神奇提示词真的有明显提升,你仍然应该能在这个规模的基准上看到差异。如果有人愿意去做一个一百美元的地理定位基准,而不是我这个十五美元的版本,我觉得那会是一个很有意思的项目。
最后,让我们用这个基准测试来回答我一直以来的一个问题:gpt-5.4 和 gpt-5.5 是否具备 o3 的地理定位能力?答案显然是否定的。
| 运行 | 中位数 km | 平均值 km | <=25 km | <=100 km | <=500 km |
|---|---|---|---|---|---|
| o3 默认 | 83.2 | 440.7 | 58 | 109 | 176 |
| o3 GeoGuessr | 102.3 | 481.9 | 59 | 99 | 172 |
| gpt-5.4 默认 | 163.3 | 638.9 | 26 | 74 | 148 |
| gpt-5.5 默认 | 156.5 | 645.9 | 39 | 77 | 161 |
无论 o3 当时究竟有什么让它擅长这项任务的特质,这种能力都没有迁移到新模型上。
编辑:这篇文章在 Hacker News 上引发了一些评论。置顶评论担心模型其实早就见过这些图片,因为它们都是公共领域作品。我考虑过这一点,但觉得没必要专门去找全新的图片:第一,如果这些图像/地点对已经在训练数据里,模型本应表现得更好;第二,即使它们在训练数据里,也仍然能为提示词以及其他模型提供有用的比较数据。我确实确认过这些图片没有 EXIF 元数据,所以我们测试的不是提示词是否会让模型更容易或更不容易作弊。