大语言模型深陷幻觉问题,如何准确评估和解决?

AI信息情报站 2023-11-17
1569 字丨阅读本文需 5 分钟

众所周知,幻觉问题一直是困扰大模型的一大难题。近日,一个名为 Vectara 的 AI 平台通过自建幻觉评估模型(该模型已在Hugging Face上开源供商业使用),计算得出了目前市面上大多数公共 LLM 的幻觉频率,并以排行榜的形式在 X 上发布了截止 11 月 1 日的测试结果。

从榜单上可以看到,GPT-4 的准确率为 97.0%,幻觉率为 3.0%,而 Google Palm 的两款 LLM 表现垫底,其中 Palm Chat 的准确率为 72.8%,幻觉率甚至高达 27.2%。

榜单一经发出,大批网友纷纷转发,但也有专家指出了该排行榜中所含的问题以及我们应该关注到的细节。

英伟达高级 AI 科学家Jim Fan 指出,这项研究只评估了摘要与原文的“事实一致性”,而没有评估摘要本身的质量。通过简单的复制,摘要总能达到 100%的事实一致性,可以做到完全不存在幻觉。此外,该评估依赖于使用另一个“judge LLM”来决定幻觉是否发生,但几乎没有详细说明该如何进行提示以及如何真正捕捉谬误。Jim Fan 举例道,“假设模型注入了一些无关但真实的事实。比如文章只提到 ‘巴黎’,但模型却返回‘巴黎,法国的首都’。这算不算幻觉?”

Jim Fan 表示,事实上,这项研究甚至可能会惩罚那些总结得更好的模型,因为它们往往会进行更多的转述和提炼。此外,他也呼吁道,在下结论之前,还是务必阅读评估协议。这一点对于 LLM 任务和其他任何 ML 系统都普遍适用。

Jim Fan 的观点得到了很多大佬的支持,而 Meta 首席人工智能科学家 Yann Lecun 也是转发了本条推特。

或许是这个排行榜大火,Meta 一年前发布的但只存活了三天的 LLM——Galatica 的共创者 Ross Taylor 今日也是打破沉默,转发了 VentureBeat 关于 Galatica 因幻觉问题被网友喷到下线的故事原委。而 Yann LeCun 也是感慨道:“你知道‘早发布,勤发布’这句开源圈的老话吗?说到人工智能,还应加上‘是的,但要准备好忽略 Twitter 上暴民们荒谬的末日预言’。”

大模型的幻觉,到底该怎么破?

目前的主流方法是,通过「检索增强生成」(RAG)给LLM外挂一个知识库。

RAG的使用,直接改变了LLM解答问题的范式——从之前的「闭卷」变成了「开卷」。

具体来说,在闭卷答题系统(如ChatGPT)中,LLM只能使用自己通过预训练获得的知识生成答案。在这种情况下,LLM本身便是知识源。

在RAG系统中,LLM的角色从知识源转变为了信息的检索员。也就是说,LLM会先在知识库中对原始问题进行查询,在进一步的解析和总结之后,以简明扼要的语言给出答案。

由于LLM提供的答案是基于检索系统中提供的信息,因此这种方法可以很大程度上改善LLM的幻觉问题。

时间回到ChatGPT等大语言模型刚刚发布的时候,人们曾因为他们「胡说八道」的特性而感到有趣。

今天,LLM展现出来的非凡能力使得他们有机会深入各行各业以及人们的生活,我们开始逐渐依赖他们的「准确性」。

如今的我们,又将如何看待和处理LLM的「幻觉」问题呢?

对于大模型产生幻觉的说法,人工智能教父Hinton曾表示:

「这就是人类记忆的样子。在我看来,编造和说实话之间没有界限。说实话只是正确地编造。从这个角度来看,ChatGPT的编造能力是一个缺陷,但也是其类人智能的标志。」

中文大模型的幻觉评测数据集HalluQA

如何准确评估和解决大语言模型中的幻觉问题已经成为一个至关重要的挑战。近日,复旦大学与上海人工智能实验室构建了针对中文大模型的幻觉评测数据集HalluQA,对业界主流的大模型进行了评估。

HalluQA数据集包含了多种类型的中文问题,并针对大模型的回答进行了评估。通过对业界主流的大模型进行测试,研究人员可以更准确地评估模型的幻觉问题,并针对问题提出有效的解决方案。

在评测的24个主流大模型中,包括百度文心一言ERNIE-Bot、百川Baichuan、智谱ChatGLM、阿里通义千问和GPT-4等。无幻觉率越高代表模型幻觉越低,事实准确性越高。

从评测结果来看,幻觉问题对大模型来说仍然是一个挑战。在幻觉消除方面,具备检索增强能力的大模型表现出了明显的优势。这些模型通过引入检索信息来增强模型的语义理解能力,从而提高了模型生成内容的准确性。在所有模型评测中,文心一言在整体幻觉问题解决方面表现突出,排名第一,整体无幻觉率为69.33%。这意味着文心一言在处理自然语言任务时能够更好地理解上下文信息,并生成准确的回答。而GPT-4整体无幻觉率为53.11%,排名第六。

解决幻觉问题的大语言模型展现出了强大的产业落地价值。这些模型不仅可以在各个领域中发挥出更大的作用,还能够提高其可靠性,为用户提供更准确、更实用的信息和服务。通过继续研究和探索新的技术方法,有望进一步提高大语言模型的语义理解能力和可靠性。这将为人工智能技术的广泛应用和发展奠定坚实的基础。

文章来源: AI新智界,智趣财经社,新智元

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:AI信息情报站
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...