AI搜索工具表现堪忧：六成答案不准确却依然自信！

　　迩来，哥伦比亚大学数字讯息商量中央揭晓了一项引人属目的商量申报，聚焦于市情上八款主流的AI探求东西，蕴涵ChatGPTSearch、Perplexity系列、Gemini、DeepSeekSearch、Grok-2Search、Grok-3Search以及Copilot。商量团队对这八款东西举办了深度测试，旨正在评估它们的无误性与牢靠性。为确保样本的巨头性，商量职员从20家业界著名的讯息机构中挑选了200篇报道，确保它们正在谷歌探求结果中的排名靠前，随后愚弄团结的盘查语句对这些AI东西一一举办了观察。

　　测试结果不尽如人意，除了Perplexity及其付费版本外，其他AI探求引擎的展现均令人绝望。完全展现中，公然高达60%的谜底是不无误的。更令人忧虑的是，这些AI东西正在供应舛错讯息时展现得极其“相信”，屡屡以谢绝置疑的口气陈述谜底，尽管面临质疑，它们仍然试图用逻辑自洽来保卫自己的说法。这不单呈现了AI探求引擎正在无误性上的缺陷，也激励了业界对付大讲话模子牢靠性的深远反思。

　　尽量 ChatGPTSearch正在200个讯息盘查中供应了回应，但其“全部精确”率仅为28%，而“全部舛错”率高达57%，展现不佳却不至于排垫底，反而是X公司旗下的GrokAI系列要紧失误，加倍是Grok-3Search，舛错率竟达94%。而微软的Copilot则越发“不给力”，200次盘查中，有104次拒绝解答，精确率也可是16%，总的舛错率贴近70%。

　　令人疑心的是，尽量这些AI探求东西的展现题目频出，各至公司如故向用户收取奋发的月度订阅费，代价从20美元到200美元不等。更令人惊诧的是，尽量付费版PerplexityPro和Grok-3Search的解答次数补充，其舛错率坊镳也水涨船高。这一景象无疑让用户对这些AI探求东西的性价比发作了质疑。

　　这项商量呈现了AI探求引擎正在无误性与牢靠性上的巨大挑衅。正在AI工夫疾速发达的现正在，咱们寄指望于异日能产生越发精准和可托的AI探求东西，为用户供应高质料的讯息办事。返回搜狐，查看更众

相关文章