首页 > 原创知识 > 原创知识 > BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

BBC等机构研究评估AI工具新闻总结水平,谷歌Gemini错误比例最高

发布时间:2025-10-24 18:36:29 来源: 18638159832

10 月 24 日消息,生成式 AI 的确在信息整理方面大有用处,生成的内容也常令人惊叹,但只要仔细一看,就能发现这项技术仍存在不少缺陷。

据外媒 Android Authority 今日报道,欧洲广播联盟(EBU)与 BBC 近日联合评估了 ChatGPT、Gemini 及 Perplexity 等多款 AI 系统在新闻摘要方面的表现。研究动因在于,现有约 15% 的 25 岁以下年轻人主要通过 AI 获取新闻

BBC 最初通过大规模问卷调查及六场焦点小组访谈收集公众对 AI 新闻工具的使用体验与看法,随后 EBU 将这项研究扩展至国际范围。

研究显示,约 42% 的英国成年人表示信任 AI 内容的准确性,年轻群体的信任度更高。不过,84% 的受访者认为,一旦出现事实性错误,将严重削弱自己对 AI 的信任。问题在于,这些系统的“不准确度”究竟为何,以及用户是否真的察觉到了这些错误。

结果显示,大多数 AI 生成的内容都存在问题。各模型整体表现差距不大,但 Gemini 成为明显“异类”,不仅错误数量最多,严重错误的比例也远高于其他系统

研究指出,Gemini 的问题主要包括:缺乏清晰的资料来源链接、未能区分可靠信息与讽刺内容、过度依赖维基百科、缺乏足够语境,以及错误引用原文

在六个月的研究周期中,各大 AI 系统的表现都有改进,新闻摘要的准确率普遍提升,Gemini 的进步尤为明显。但即使如此,Gemini 的表现仍明显落后于其他系统。

原创知识更多>>

全新奔驰纯电GLC预售 价格一步到位 能否改写奔驰新能源市场命运 比电动车耐用更续航,轻骑铃鹿50蓝牌小踏板开始预定! 特斯拉上海超级工厂5月交付量超8.5万辆 增长39.4% 宝马新一代X5确认取消分体式尾门,新设计向Neue Klasse看齐 极氪001五周年纪念版限量加售 售价36.5万/搭载925马力四驱系统 2026 粤港澳车展重磅新车:东风风神 L8 新车亮相 探店2026款问界M9:真实试驾体验与购车权益梳理 扎根欧洲:卓驭科技欧洲总部开业仪式在德国布伦瑞克正式举行 合资SUV又降价了:多款车型“腰斩”,买车最好时机来了 2026款比亚迪海狮06DM-i上市,售价12.99万元起 新款皓影13.79万起焕新:华为智能云车机加持,补齐最后一块短板 比亚迪海豚G DM-i官图,欧版专属插混/综合续航1000km 没有V12声浪 股价暴跌8% 华尔街直接给了法拉利一巴掌 萤火虫:李斌的iPhone梦与蔚来的现实选择题 兼顾跑山与通勤,昊铂S600预售18.89万元起 燃油SUV卖不动? 4月销量榜出炉 5款销量过万 锋兰达第四 面对理想L9和智界V9,为什么乐道L80,跳出了纳什均衡 纯电小型车火了!4月销量榜出炉 2款销量过万 海豚第二 发动机都能开飞机这台6万多的国民家轿全国抢着提车|SDTV汽车生活 闪充+云辇-P Ultra+Shark!方程豹要起飞 限时红包价10.99万元起售,风云T9长续航实力进阶享满配生活. 零跑Q1营收创新高却净亏3.9亿元:弯道过了,才是真的赛道? 55.98万买理想L9 Livis?这7个隐藏成本销售绝不会告诉你 一汽悦意08内饰首次曝光:B+级旗舰轿跑,外有锋芒,内藏温柔 小型 MPV 翘楚 大众 途安 正式宣告停产 结束 23 年传奇 云辇-P Ultra首秀:方程豹双车首搭,解决了硬派越野的哪些痛点? 推荐顶配版 全新比亚迪海狮05 EV购车指南 闪充上大分!比亚迪4月销量再夺冠,新能源持续领跑车市 三轮也能行驶?方程豹豹8、豹5闪充版上市,首搭首发云辇-P Ultra 梅赛德斯-奔驰在欧洲发布了旗下顶级电动轿车『EQS』的改款车型