IT之家 2小时前
谷歌推出基准测试检验AI是否“靠谱”:Gemini 3 Pro准确率仅69%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 12 月 13 日消息,据《商业内幕》今日报道,谷歌 DeepMind 本周发布了 FACTS 基准测试,用来检验 AI 在事实准确性方面到底靠不靠谱。

这一测试从四个维度评估模型能力,包括是否能凭自身知识准确回答事实问题、能否正确使用网络搜索、是否能在长文档中扎实引用信息,以及对图像内容的理解水平。在参测模型中,谷歌的 Gemini 3 Pro 表现最好,准确率为 69%,其他主流模型则明显落后。

这一成绩对企业同样是个警钟。虽然 AI 在生成速度和语言流畅度上优势明显,但在事实可靠性方面仍然远低于人类标准,特别是在需要专业细分知识、复杂推理或严格基于原始材料的场景中

在金融、医疗和法律等高风险行业,即便细小的事实错误,也可能放大成严重后果。报道以《商业内幕》员工梅莉亚・拉塞尔为例,其本周梳理了律师事务所如何应对 AI 逐渐被当作法律事实来源的现实,结果并不乐观。她提到,有律师事务所的员工使用 ChatGPT 起草法律文件,结果文件中充斥虚假判例,最终律所直接解雇了该员工。

报道指出,谷歌希望通过明确模型出错的位置和方式,加快 AI 的改进速度。但眼下可以得出的结论非常清楚,AI 确实在进步,然而仍有大约三分之一的时间会犯错

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 拉塞尔 准确 大成
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论