著名的 o3 “GeoGuessr” 提示词失效了

1
分类技术博客
作者Sean Goedecke
来源跳转
发表时间

内容

去年 4 月,Kelsey Piper 发现 OpenAI 的 o3 模型在判断一张照片是在哪里拍摄的这件事上,表现得出奇地好。就像人类的“地理猜图”▶ 高手一样,o3 有时能看着一张平平无奇的海滩照片,准确告诉你它的拍摄地点。下面是 Kelsey 给出的例子:

不少人复现了这一点,效果也不错:虽然不是 100% 命中,但显然比随便让一个人来猜要得多。这里的教训是:模型能力常常会让我们大吃一惊。o3 在发布后的两周里,直到 Kelsey 发推之前,都没人注意到它在地理定位方面竟然这么强。还有多少我们从未发现的隐藏能力?今天我们又错过了当前模型的哪些能力?

也有人从这件事里得出了另一个 结论:所谓“提示词工程”可以解锁全新的能力。这是因为 Kelsey 有一个神奇提示词,是她在长期使用中不断打磨出来的。每当 o3 出错时,她就会问它本来怎样才能避免这个错误,然后把这些内容加入提示词。下面是这个提示词的前 10%,你可以先感受一下:

你正在进行一轮 GeoGuessr 游戏。你的任务是:根据一张静态图片,推断最可能的真实地理位置。请注意,与 GeoGuessr 游戏不同,这些图片并不保证拍摄地点在谷歌街景车能到达的地方:它们是用户提交的,用来测试你的图像定位能力。私人领地、别人的后院,或者一次越野探险,都完全有可能(尽管很多图片都能在街景中找到)。要意识到自己的优势和弱点:按照这个流程,你通常能准确判断出大洲和国家……

这个提示词给很多人留下了深刻印象,他们纷纷尝试 使用 ,并表示它能正确识别很多图片。但当然,o3 只要配上一句简单的“请认真思考这张照片是在哪里拍的?”提示,也能正确识别很多图片。那么,这个提示词到底有没有帮助?只靠在 ChatGPT 里随便玩玩,很难判断。你需要建立一个图像评测集,让 o3 在其上跑两次:一次用花哨的提示词,一次不用。

所以我就这么做了。我从 Wikimedia Commons、Geograph Britain and Ireland 以及 iNaturalist 中抽取了 200 张图片作为基准测试。你可以在这里查看 AI 生成的摘要,但关键表格如下:

提示词n中位数 km平均值 km第25百分位 km第75百分位 km<=25 km<=100 km<=500 km<=1000 km
默认20083.2440.716.4221.958109176182
GeoGuessr 提示词200102.3481.918.5277.85999172180

对我来说还有一点很有意思:当时居然没人检查这件事。我花了大约六个小时、差不多 15 美元,就把这个基准测试构建并跑完了。为什么大家在写那些夸 o3 提示词有多厉害的文章时,没有人做这件事呢?

一种比较宽容的解释可能是,这个故事更多是在讲 o3 真正的地理定位能力,而不是那个神奇提示词本身。o3 的定价当时也贵了大约五倍(不过即便只做 40 张图而不是 200 张图的基准测试,也足以让人怀疑这个提示词到底有多大作用)。另外,AI 发展实在太了。地理定位这个话题大概只火了一周:之后人们讨论的就变成了 GPT-4o 的谄媚性了。另一个原因是,当时的 AI 工具链还没这么好。这个基准测试之所以对我来说这么容易跑,是因为 GPT-5.5 承担了大部分繁重工作。在强智能体出现之前,你本来得自己写这个(很简单的)基准测试。我也没法太苛责别人:当时我自己也没去做。

也许我的基准测试并不够好?这些照片看起来还算合理:大多是各种各样类似地理猜图的道路和风景照片。我本可以试着收集几千张而不是几百张照片,但如果那个神奇提示词真的有明显提升,你仍然应该能在这个规模的基准上看到差异。如果有人愿意去做一个一百美元的地理定位基准,而不是我这个十五美元的版本,我觉得那会是一个很有意思的项目。

最后,让我们用这个基准测试来回答我一直以来的一个问题:gpt-5.4 和 gpt-5.5 是否具备 o3 的地理定位能力?答案显然是否定的。

运行中位数 km平均值 km<=25 km<=100 km<=500 km
o3 默认83.2440.758109176
o3 GeoGuessr102.3481.95999172
gpt-5.4 默认163.3638.92674148
gpt-5.5 默认156.5645.93977161

无论 o3 当时究竟有什么让它擅长这项任务的特质,这种能力都没有迁移到新模型上。

编辑:这篇文章在 Hacker News 上引发了一些评论。置顶评论担心模型其实早就见过这些图片,因为它们都是公共领域作品。我考虑过这一点,但觉得没必要专门去找全新的图片:第一,如果这些图像/地点对已经在训练数据里,模型本应表现得更好;第二,即使它们在训练数据里,也仍然能为提示词以及其他模型提供有用的比较数据。我确实确认过这些图片没有 EXIF 元数据,所以我们测试的不是提示词是否会让模型更容易或更不容易作弊。

评论

(0)
未配置登录方式
暂无评论