即使是最好的人工智能模型,有时也会出现幻觉。如果你让 ChatGPT 给你提供一个话题的事实,那么它的回答越长,就越有可能包含一些不真实的事实。
在生成较长的答案时,哪些模型在事实方面比其他模型更准确?这很难说,因为直到现在,我们还没有一个基准来衡量 LLM 长篇回答的事实准确性。
DeepMind 首先使用 GPT-4 创建了 LongFact,这是一套由 2280 个问题组成的提示,涉及 38 个主题。这些提示可以诱导被测试的 LLM 作出长式回答。
然后,他们使用 GPT-3.5-turbo 创建了一个人工智能代理,利用谷歌来验证 LLM 生成的回答的真实性。他们将这种方法称为 "搜索增强事实性评估器"(SAFE)。
SAFE 首先将 LLM 的长式回复分解成单个事实。然后,它向谷歌搜索发送搜索请求,并根据返回的搜索结果中的信息来判断事实的真实性。
研究人员说,与进行事实检查的人类注释者相比,SAFE 实现了 "超人的性能"。
SAFE与72%的人类注释一致,而在与人类注释不一致的地方,它有76%的时间是正确的。同时,它的成本也比众包人类注释者低 20 倍。因此,LLM 是比人类更好、更便宜的事实核查工具。
测试的 LLM 所做回应的质量是根据其回应中事实标注的数量以及单个事实标注的真实性来衡量的。
他们使用的指标(F1@K)估算的是人类首选的 "理想 "回复事实数量。基准测试使用 64 作为 K 的中位数,178 作为最大值。
简单地说,F1@K 是 "回答是否如我所愿提供了尽可能多的事实 "与 "这些事实中有多少是真实的?
哪种 LLM 最符合事实?
研究人员使用 LongFact 来提示来自 Gemini、GPT、Claude 和 PaLM-2 系列的 13 个 LLM。然后,研究人员使用 SAFE 对这些回答的真实性进行了评估。
在生成长式回答时,GPT-4-Turbo 名列榜首,是最符合事实的模型。紧随其后的是 Geminii-Ultra 和 PaLM-2-L-IT-RLHF。结果表明,大型 LLM 比小型 LLM 更符合事实。
F1@K 的计算结果可能会让数据科学家们兴奋不已,但为了简单起见,这些基准结果显示了每个模型在返回平均长度和较长的问题回复时的真实性。
SAFE 是量化 LLM 长格式事实性的一种廉价而有效的方法。在事实核查方面,它比人类更快、更便宜,但仍取决于谷歌在搜索结果中返回的信息的真实性。
DeepMind 发布了 SAFE 供公众使用,并表示它可以通过更好的预训练和微调来帮助提高 LLM 的事实真实性。它还能让 LLM 在向用户展示输出结果之前检查其事实。