英文一种更好的识别过度自信大型语言模型的方法
业界资讯
不确定性可信评估+3
作者: MIT
发表时间:
MIT研究者提出一种衡量大模型不确定性的新指标,通过比较目标模型与同类模型的答案分歧,并结合自身回答一致性,形成总不确定性指标;在问答、摘要、翻译和数学等10类任务中,它比传统方法更能识别自信但错误的幻觉输出,还可减少查询成本,帮助用户判断模型是否可信。
浏览 业界资讯 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文MIT研究者提出一种衡量大模型不确定性的新指标,通过比较目标模型与同类模型的答案分歧,并结合自身回答一致性,形成总不确定性指标;在问答、摘要、翻译和数学等10类任务中,它比传统方法更能识别自信但错误的幻觉输出,还可减少查询成本,帮助用户判断模型是否可信。
英文MIT研究测试GPT-4、Claude3、Llama3在TruthfulQA与SciQ上对不同用户画像的答复,发现对低英语水平、低学历、非美国出身者准确性与真实性下降、拒答率上升且更易出现居高临下措辞,结论是LLM可能向弱势群体传播错误信息并加剧信息不平等。