首页 > 原创知识 > 原创知识 > BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

发布时间:2025-10-24 18:36:29 来源: 18638159832

10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

原创知识更多>>

比亚迪海豹07 EV官图!前脸生动,全新紫色,轴距2900mm定位中型车 前途陆群造车往事:拿着旧船票,找不到新大陆 全新阿尔法S5预售11.28万起:重新审视年轻人的第一台轿跑 驾驶BMW iX M70的体验,竟然能秒杀大部分跑车 三驾马车齐发力!车市淡季逆势走强,吉利2月销量再超20万 车市承压 奕派科技逆势增长 前两月同比增37% 2月新势力销量点评:悲喜并不相通,分化仍是主旋律 2026年从整车业务朝着自动驾驶、无人驾驶出租车、人形机器人等板块疯狂倾斜 过年开什么新能源车回家,亲戚最不会问? 中东实测翻车,Robotaxi还是有点傻? 大众Atlas换代在即,设计更新、主打七座SUV市场 无差别普惠 全维度守护 东风风行点亮返乡路 众泰的“重启键”,这次真的按下去了吗? 上汽大众2026年“七箭齐发”,开启“大众更出众”新篇章 赵明上车,印奇掌舵:千里科技的想象力,又被刷新了? 新起点 新征程 东风汽车奏响跃迁发展强音 特斯拉Cybercab或配备物理充电接口与摄像头清洗系统 法雷奥斩获高端汽车制造商车内照明订单 华为乾崑科技旗舰大六座 宝骏华境S更多信息 外资Tier1厂商内部人士的直言,道破了不少外资零部件企业在华的生存窘境 特斯拉Model Y Juniper尾灯设计引争议 因反光式布局致车主被警方拦停 合资车的2026:大反攻,还是大溃败? 从关税战到价格承诺,中欧新能源合作开新局? 赋能千行百业|8.68万元起,郑州日产金锐骐荣耀上市 德邦稳盈增长被传日“吸金”120亿:公司回应 产品调整限购 解析梁文锋署名DeepSeek新论文:让记忆和计算分开 锚定“三化”战略航向 中国黄金以硬核实力擘画黄金产业新蓝图 贵州茅台披露市场化运营方案,公布自营体系零售价格 年营收仅实现微增,老干妈的“后陶华碧时代”怎么办? 2025年汽车市场|反“内卷”、闯关L3,十大热词看行业进化轨迹