AI工具提出的主张有多好支持?
Oscar Wong / Getty Images
生成式AI工具及由它们驱动的深度研究代理和搜索引擎经常提出缺乏支持和带偏见的主张,这些主张没有得到其引用的来源支持。根据一项分析,发现约有三分之一的AI工具提供的答案没有得到可靠来源的支持。对于OpenAI的GPT 4.5来说,这一比例甚至更高,达到47%。
Pranav Narayanan Venkit在Salesforce AI研究组与同事们一起测试了生成式AI搜索引擎,包括OpenAI的GPT-4.5和5、You.com、Perplexity以及Microsoft的必应聊天。除此之外,他们还对五个深度研究代理进行了测试:GPT-5的深度研究功能、必应聊天的更深层思考选项以及You.com、Google Gemini和Perplexity提供的深度研究工具。
“我们希望对生成式搜索引擎进行社会技术评估,”Narayanan Venkit表示。他们的目标是确定答案的质量如何,以及人类应该如何看待这些信息。
不同的AI引擎被要求回答303个查询,其回答根据八个不同指标进行评估 – 研究人员称之为DeepTrace标准。这些标准旨在测试答案是否是片面的或过于自信,它们与问题的相关程度如何,引用了什么来源(如果有的话),引用的来源对答案中提出的声明提供了多少支持以及引用的完备程度。问题大致分为两组:第一组包括有争议问题,这些问题为检测AI答案中的偏见提供了机会,而第二组包括旨在测试多个领域的专业知识的问题,包括气象学、医学和人机交互。
<p一个旨在引发辩论的有争议问题的例子是“为什么替代能源有效地不能取代化石燃料?”,而一个基于专业知识的问题是“计算水文学中使用最相关的模型是什么?”
通过指导了解如何通过培训过程来评估答案的最佳方式的大型语言模型(LLM)对AI答案进行了评估,这个过程包括检查两名人类注释者如何评估超过100个问题的答案,这些问题与研究中使用的问题类似。
总体而言,AI驱动的搜索引擎和深度研究工具表现得相当糟糕。研究人员发现,许多模型提供了片面回答。约有23%的必应聊天搜索引擎提出的主张包含未支持的声明,而对于You.com和Perplexity AI搜索引擎,这一比例大约为31%。GPT-4.5提出了更多不受支持的主张 – 47% – 但即使这一比例远低于Perplexity的深度研究代理提出的97.5%不受支持的主张。“我们肯定会对此感到惊讶,”Narayanan Venkit说。
OpenAI拒绝对该论文的发现发表评论。Perplexity拒绝公开评论,但对研究方法表示异议。特别是,Perplexity指出,其工具允许用户选择特定的AI模型 – 例如GPT-4 – 他们认为最可能提供最佳答案,但研究中使用的是该Perplexity工具选择AI模型本身的默认设置。(Narayanan Venkit承认研究团队没有探索这个变量,但他认为大多数用户无论如何都不会知道要选择哪种AI模型。)You.com、微软和谷歌未回复《新科学人》的置评请求。
牛津大学的Felix Simon表示:“用户经常抱怨以及各种研究表明,尽管取得了重大进展,AI系统可能产生片面或误导性的答案。”“因此,这篇论文为这一问题提供了一些有趣的证据,希望这将促进在这方面进一步的改进。”
然而,并不是所有人对结果感到如此自信,即使他们与有关工具潜在不可靠性的轶事性报道相吻合。“本文的结果在很大程度上取决于对收集数据的基于LLM的注释,”瑞士苏黎世大学的Aleksandra Urman表示。“对此存在几个问题。”使用AI注释的任何结果都必须由人类进行核查和验证 – Urman担心研究人员在这方面做得还不够充分。
她还对用于检查相对较少的人类注释答案是否与LLM注释答案一致的统计技术表示担忧。Urman表示,使用的技术Pearson相关性“非常非标准且奇特”。
尽管在结果的有效性方面存在异议,Simon认为需要进行更多工作,以确保用户正确解释从这些工具获得的答案。“需要改进AI生成答案的准确性、多样性和引用,特别是在这些系统在各个领域得到更广泛应用的情况下,”他说。
话题: