这道小学数学题 AI竟集体答错

2024-07-18
小编: 网络
正體

分享到：

导读: 7月13日，最新一期的《歌手》公布排名：孙楠得票13.8%，外国歌手香缇莫得票13.11%。这引发了一些网友对排名的质疑。有网友认为13.11%大于13.8%，因此，香缇莫的得票率比孙楠高。随后

丝瓜网小编提示，记得把"这道小学数学题 AI竟集体答错"分享给大家！

7月13日，最新一期的《歌手》公布排名：孙楠得票13.8%，外国歌手香缇莫得票13.11%。这引发了一些网友对排名的质疑。

有网友认为13.11%大于13.8%，因此，香缇莫的得票率比孙楠高。

随后，关于13.8%和13.11%大小比较，一度成为了网络上的热门话题。

这样一道简单的数学题，还难倒了不少大模型。

“9.11大于9.9”

这一类数学题，AI有时答对有时答错

有媒体报道，ChatGPT等国内外AI大模型，在回答这道数学题时出现了胡说八道的现象。

橙柿记者们也去提问了几家AI大模型，结果显示，有不少AI模型是答错的，还有一些AI在答题时出现了时对时错的不稳定情况。

两位记者提问了kimi，发现它时对时错，反应“冷淡”。

但在回答另一位记者时，却举例分析，让结果看起来更加直观、更好理解。

另外，记者还询问了文心一言、讯飞星火等AI模型，大部分的AI回答正确并给出了详细的答题过程。

会翻车但能“自我修正”

据南方都市报报道，AI模型智谱清言也曾给出过错误答案。

智谱清言称，13.11在百分位上比13.80大。

智谱清言是通过比较小数部分得出错误结论，称“13.11的百分位是1，而13.80（即13.8）的百分位是0。在这种情况下，1大于0。”“简而言之，13.11实际上等于13.80 0.01 0.01，这使得它比13.80（即13.8）大。”

当橙柿记者向它提问时却发现，智谱清言已经能得出正确的答案，并试图分析网络上有人得出错误答案的原因。

在比较13.8%和13.11%时，13.8%是更大的数值。

这是因为当比较两个百分数时，我们实际上是在比较它们所代表的小数。13.8%相当于0.138，而13.11%相当于0.1311。显然，0.138大于0.1311，因此13.8%大于13.11%。这个话题似乎在网络上引起了广泛的讨论，可能是因为有些人错误地将13.8%理解为13.08%，从而得出了错误的结论。

从以上这些结果中，我们发现AI模型在回答这样一道简单的数学问题时，也存在一些错误和不稳定性。

做数学题，AI会出现“幻觉”

据橙柿此前报道，今年的阿里全球数学竞赛中，有AI选手参赛但全军覆没。

AI数学成绩不佳，核心是因为基础模型的数学能力有限。虽然在面对解答题和证明题时，AI可以通过知识检索等方式拿到基础分，但一旦涉及到后续的深入分析，AI就开始出现“知识幻觉”。尤其是在面临选择题时，多数AI出现了“蒙题”的现象。

哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

另据南方都市报道，有技术专家分析，在人们看来，这是一道小学生的数学算术题，但大模型不一定这样认为，它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里，它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字，意识不到应该做双精度浮点运算。

还有业内人士提出了一种解释称，这是大模型在输入词和标点向量化排序时，没有把顺序或者关联逻辑弄对，忽略了小数点也是数字的一部分。

你去提问过AI模型吗？都得到了一些什么答案？来评论区分享一下吧！

（橙柿互动·都市快报综合报道）

丝瓜网 crfgs.com

点击展开剩余内容

相关文章

OMG电竞公司成老赖被执行总金额超2066万

天眼查App显示，近日，因有履行能力而拒不履行生效法律文书确定义务，噢麦嘎（上海）网络科技有限公司被上海市宝山区人

2023-03-23 科技

特斯拉重磅官宣！Robotaxi发布时间确定！马斯克：将载入史册

据特斯拉官方微博9月26日消息，特斯拉预告Robotaxi发布：北京时间10月11日，敬请期待。对于此次发布，特斯拉CEO伊隆·马斯克

2024-09-28 科技

全球化布局加速，数智化工厂赋能，九号公司研发制造实力尽显

作为一家聚焦创新短交通服务机器人领域的科技公司，九号公司在颠覆了平衡车行业，将其从富人玩具转变为大众电子消费品

2024-04-27 科技

华为MatePad 13.2寸平板公布：全世界最轻最薄大屏平板

9月25日，华为新品发布会上发布MatePad Pro13.2"，号称全世界最轻最薄大屏平板，屏占比高达94%，对比iPad Pro（6.4mm）薄出将近

2023-09-26 科技

4s店不卖车改鲜花配送，发展保险经纪人成配送员，年收入过亿

本文采访自一位做社区配送的行业大佬，全文共1687字，预计耗费3分钟左右，想了解整个商业模式请耐心读完，本文属于【豆

2019-02-18 科技

增加200多升、100多公斤、“月壤砖”……“天舟快递”已就绪神十九乘组准备收货

央视网消息：11月13日，天舟八号货运飞船与长征七号遥九运载火箭组合体垂直转运至发射区，计划近日择机实施发射。目前

2024-11-15 科技

白俄罗斯总统：将按人民意愿与俄罗斯一体化

（观察者网讯）15日，白俄罗斯总统卢卡申科在与俄罗斯总统普京会谈后表示，俄罗斯和白俄罗斯将按照两国人民的意愿进行

2019-02-16 科技

王者荣耀2020微信摇心愿活动永久皮肤知多少？结束时间前教你怎么摇

不少玩家都很感兴趣王者荣耀2019微信摇心愿活动永久皮肤知多少？，因此针对这个问题给各位介绍一番结束时间前教你怎么

2019-02-11 科技

新知｜地沟油“飞”上天！它是如何咸鱼翻身的？

主笔、视频制作：于梅君在科技力量的加持下，被人深恶痛绝的“地沟油”，竟摇身变成了“香饽饽”——作为航空燃料，

2024-06-23 科技

Web Analytics Made Easy - Statcounter