AI搜索工具表现堪忧:六成答案不准确却依然自信!

发布日期: 2025-05-11

  迩来,哥伦比亚大学数字讯息商量中央揭晓了一项引人属目的商量申报,聚焦于市情上八款主流的AI探求东西,蕴涵ChatGPTSearch、Perplexity系列、Gemini、DeepSeekSearch、Grok-2Search、Grok-3Search以及Copilot。商量团队对这八款东西举办了深度测试,旨正在评估它们的无误性与牢靠性。为确保样本的巨头性,商量职员从20家业界著名的讯息机构中挑选了200篇报道,确保它们正在谷歌探求结果中的排名靠前,随后愚弄团结的盘查语句对这些AI东西一一举办了观察。

  测试结果不尽如人意,除了Perplexity及其付费版本外,其他AI探求引擎的展现均令人绝望。完全展现中,公然高达60%的谜底是不无误的。更令人忧虑的是,这些AI东西正在供应舛错讯息时展现得极其“相信”,屡屡以谢绝置疑的口气陈述谜底,尽管面临质疑,它们仍然试图用逻辑自洽来保卫自己的说法。这不单呈现了AI探求引擎正在无误性上的缺陷,也激励了业界对付大讲话模子牢靠性的深远反思。

  尽量 ChatGPTSearch正在200个讯息盘查中供应了回应,但其“全部精确”率仅为28%,而“全部舛错”率高达57%,展现不佳却不至于排垫底,反而是X公司旗下的GrokAI系列要紧失误,加倍是Grok-3Search,舛错率竟达94%。而微软的Copilot则越发“不给力”,200次盘查中,有104次拒绝解答,精确率也可是16%,总的舛错率贴近70%。

  令人疑心的是,尽量这些AI探求东西的展现题目频出,各至公司如故向用户收取奋发的月度订阅费,代价从20美元到200美元不等。更令人惊诧的是,尽量付费版PerplexityPro和Grok-3Search的解答次数补充,其舛错率坊镳也水涨船高。这一景象无疑让用户对这些AI探求东西的性价比发作了质疑。

  这项商量呈现了AI探求引擎正在无误性与牢靠性上的巨大挑衅。正在AI工夫疾速发达的现正在,咱们寄指望于异日能产生越发精准和可托的AI探求东西,为用户供应高质料的讯息办事。返回搜狐,查看更众