一种更好的识别过度自信大型语言模型的方法

大型语言模型（LLM）能够生成看似可信但并不准确的回答，因此研究人员开发了不确定性量化（uncertainty quantification）方法，用于检验预测的可靠性。其中一种常见方法，是将同一个提示词多次提交给模型，观察其是否会生成相同答案。

但这种方法衡量的是“自信程度”，而即便是最出色的 LLM，也可能在错误答案上表现得非常自信。过度自信会误导用户对预测准确性的判断，而在医疗、金融等高风险场景中，这可能带来灾难性后果。

为弥补这一缺陷，MIT 研究人员提出了一种用于衡量另一类不确定性的新方法，它能够更可靠地识别那些“自信但错误”的 LLM 响应。

他们的方法是，将目标模型的回答与一组相似 LLM 的回答进行比较。研究发现，衡量跨模型分歧（cross-model disagreement）比传统方法更能准确捕捉这类不确定性。

他们还将这一方法与衡量 LLM 自一致性（self-consistency）的方法结合，构建出一个“总不确定性”指标，并在 10 项贴近真实应用的任务上进行了评估，包括问答和数学推理。结果显示，这一总不确定性指标始终优于其他衡量方法，更擅长识别不可靠的预测。

“自一致性已被广泛用于各种不确定性量化方法中，但如果你的不确定性估计只依赖单个模型的输出结果，那它未必值得信赖。我们回到最初的问题，重新理解现有方法的局限，并以此为起点设计了一种互补方法，能够在经验上提升结果表现。” MIT 电气工程与计算机科学（EECS）研究生、这项技术论文的第一作者 Kimia Hamidieh 说。

这篇论文的合作者还包括：MIT-IBM Watson AI Lab 研究科学家 Veronika Thost；MIT 前博士后、现任伍斯特理工学院助理教授 Walter Gerych；MIT-IBM Watson AI Lab 研究员 Mikhail Yurochkin；以及论文资深作者、EECS 副教授、医学工程与科学研究所（Institute of Medical Engineering Sciences）成员、信息与决策系统实验室（Laboratory for Information and Decision Systems）成员 Marzyeh Ghassemi。

理解过度自信

许多流行的不确定性量化方法，都是通过要求模型给出置信分数，或测试其对同一提示词的回答一致性来实现的。这些方法估计的是偶然不确定性（aleatoric uncertainty），也就是模型对自身预测在内部有多大把握。

然而，LLM 即使在完全错误时也可能表现得信心十足。研究表明，当模型过度自信时，认知不确定性（epistemic uncertainty）——即“我们是否使用了正确模型”的不确定性——可能是评估真实不确定性的更好方式。

MIT 研究团队通过测量一组相似 LLM 之间的分歧，来估计认知不确定性。

Hamidieh 解释说：“如果我把同一个问题多次问给 ChatGPT，它一次次给出相同答案，这并不意味着答案一定正确。如果我换成 Claude 或 Gemini 再问同一个问题，而得到的是不同答案，这就会让我对认知不确定性有一个直观感受。”

认知不确定性试图刻画目标模型与该任务“理想模型”之间的偏离程度。但由于不可能真正构建一个理想模型，研究人员通常只能使用替代模型或近似方法，而这些方法往往依赖并不可靠的假设。

为了改进不确定性量化，MIT 研究人员需要一种更准确的认知不确定性估计方法。

集成方法

他们开发的方法，是测量目标模型与一个由若干规模和架构相近模型组成的小型模型集成（ensemble）之间的差异。研究发现，比较语义相似度（semantic similarity），即回答在意义上的接近程度，能够更好地估计认知不确定性。

为了获得最准确的估计，研究人员需要一组能够覆盖多样化回答的 LLM，这些模型既不能与目标模型过于相似，又要根据其可信度进行加权。

“我们发现，满足这些条件最简单的方法，就是选用由不同公司训练的模型。我们尝试过许多更复杂的方法，但最终效果最好的，反而是这种非常简单的做法。” Hamidieh 说。

在开发出这种认知不确定性估计方法之后，他们又将其与一种衡量偶然不确定性的标准方法结合起来。由此得到的总不确定性指标（TU），能够最准确地反映模型的置信水平是否值得信任。

“总不确定性既取决于给定提示词本身的不确定性，也取决于我们的模型与最优模型有多接近。因此，把这两种不确定性指标加总起来，就能得到最佳估计。” Hamidieh 说。

TU 还能更有效地识别 LLM 发生幻觉的情况，因为认知不确定性能够标记那些偶然不确定性可能漏掉的“自信但错误”的输出。它也可能帮助研究人员在训练过程中强化 LLM “自信且正确”的答案，从而提升模型性能。

他们使用多个 LLM，在 10 项常见任务上测试了 TU，包括问答、摘要、翻译和数学推理。结果表明，与单独使用任一指标相比，他们的方法更能有效识别不可靠预测。

衡量总不确定性所需的查询次数，往往少于计算偶然不确定性所需的次数，这有望降低计算成本并节省能源。

他们的实验还显示，认知不确定性在存在唯一正确答案的任务上最为有效，例如事实性问答；但在更开放式的任务中，表现可能相对较弱。

未来，研究人员可能会对这项技术进行调整，以提升其在开放式查询中的表现。他们也可能在这项工作的基础上，进一步探索其他形式的偶然不确定性。

这项工作部分由 MIT-IBM Watson AI Lab 资助。

论文：“用跨模型分歧补充自一致性以进行不确定性量化”

一种更好的识别过度自信大型语言模型的方法

内容

评论

摘要