谷歌DeepMind推出“超人类”AI系统SAFE

划重点:

???? 研究人员开发了名为SAFE的AI系统，使用大型语言模型来评估信息的准确性。

???? SAFE的使用成本约为人工事实检查的20倍，可大大降低成本。

???? 研究引发了“超人类”表现的争议，需要更多透明度和人类基准来评估其真实效果。

站长之家消息:谷歌DeepMind的研究团队发布了一项新研究，介绍了一种名为“Search-Augmented Factuality Evaluator （SAFE）”的人工智能系统。该系统利用大型语言模型将生成的文本分解成个别事实，并利用谷歌搜索结果来确定每个声明的准确性。研究发现，SAFE在评估大型语言模型生成的信息准确性方面优于人工事实检查员。

与人工标注员的对比显示，SAFE的评估结果与人工评级的一致率达到了72%。更值得注意的是，在100个SAFE与人工评级者之间存在分歧的样本中，SAFE的判断在76%的情况下被证明是正确的。然而，研究中“超人类”表现的说法引发了争议，一些专家质疑这里的“超人类”到底是什么意思。他们认为，需要更多透明度和人类基准来评估SAFE的真实效果，而不仅仅是依赖于众包工人。

SAFE的应用成本约为人工事实检查的20倍，这意味着它可以大大降低事实核查的成本。研究团队还使用SAFE评估了13个顶级语言模型的事实准确性，并发现较大型的模型通常产生较少的错误。尽管最佳模型的表现仍然存在一定数量的错误，但自动事实检查工具如SAFE可能在减少这些风险方面发挥关键作用。

虽然SAFE的代码和LongFact数据集已在GitHub上开源，但研究人员指出，仍需要更多关于研究中使用的人类基准的透明度。正因如此，技术巨头们竞相开发越来越强大的语言模型，自动核查这些系统输出的信息的能力可能变得至关重要。SAFE等工具代表着建立新的信任和责任层面的重要一步。

然而，关键是这类重要技术的发展必须在开放的环境中进行，并获得来自广泛利益相关者的意见。严格、透明地与人类专家进行基准测试将是衡量真正进步的关键所在。只有这样，我们才能评估自动事实检查对打击错误信息的实际影响。

举报/反馈

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

谷歌DeepMind推出“超人类”AI系统SAFE

友情提示

人社局回应：禁止使用苹果手机，鼓励使用华为手机！

华为三折叠屏手机，仿佛一把尖刀插入了制裁者的胸口！

下架警告！外媒称若腾讯不屈服，苹果可能禁用微信：苹果用户急了

俄罗斯已经彻底封禁YouTube，无论是网页版还是客户端都无法连接

从Mag7财报，我看到英伟达的业绩可能被透支了

巨头吃瘪谷歌输官司被认定非法垄断

中国

中国

警察示意女子停车女子没戴头盔也没减速撞上民警

网络热歌《苹果香》竟然被一个失聪的小女孩唱到了极致

杨雯梓美女（蚊子）演唱《苹果香

孙女被领导穿小鞋，董事长爷爷亲自下场撑腰！

陈幸同钱天一夺WTT中国站女双冠军

从国庆假期看文旅新趋势

东风快递搜，使命必达，这一刻咱妈终于不再隐忍了

伊以交战第2天，七国围攻伊朗，以色列强援到位，中方表明态度

马龙4-0横扫梁靖崑进决赛

国庆高铁上，这两个年轻人被“曝光”！

谷歌DeepMind推出“超人类”AI系统SAFE

友情提示

人社局回应：禁止使用苹果手机，鼓励使用华为手机！

华为三折叠屏手机，仿佛一把尖刀插入了制裁者的胸口！

下架警告！外媒称若腾讯不屈服，苹果可能禁用微信：苹果用户急了

俄罗斯已经彻底封禁YouTube，无论是网页版还是客户端都无法连接

从Mag7财报，我看到英伟达的业绩可能被透支了

巨头吃瘪 谷歌输官司 被认定非法垄断

中国

中国

警察示意女子停车女子没戴头盔也没减速撞上民警

网络热歌《苹果香》竟然被一个失聪的小女孩唱到了极致

杨雯梓美女（蚊子）演唱《苹果香

孙女被领导穿小鞋，董事长爷爷亲自下场撑腰！

陈幸同钱天一夺WTT中国站女双冠军

从国庆假期看文旅新趋势

东风快递搜，使命必达，这一刻咱妈终于不再隐忍了

伊以交战第2天，七国围攻伊朗，以色列强援到位，中方表明态度

马龙4-0横扫梁靖崑进决赛

国庆高铁上，这两个年轻人被“曝光”！

巨头吃瘪谷歌输官司被认定非法垄断