今天我们来聊聊一个上了热搜的问题,这个问题看似简单,却让不少 AI 大模型“翻车”的问题:9.11 和 9.9,哪个大?

问题的由来

在这里插入图片描述

这个问题最初是由一位名叫 Riley Goodside 的工程师提出的。Riley 是一家 AI 数据标注公司的“大牛”,专门负责设计那些能引导 AI 模型回答问题的提示(prompt)。他发现了一个有趣的现象:当他用“9.11 and 9.9 - which is bigger?”(9.11 和 9.9,哪个大?)这个问题去问一些 AI 大模型时,结果让人大跌眼镜。

国外大模型的表现

在这里插入图片描述

国外一些知名的 AI 大模型是怎么回答这个问题的。

  • ChatGPT 4o:它毫不犹豫地说,9.11 大于 9.9。
  • Gemini Advanced:同样给出了 9.11 大于 9.9 的答案。
  • Claude 3.5 Sonnet:虽然一开始解释得头头是道,但最后还是说 9.11 大于 9.9。

这些答案显然都是错误的,因为 9.9 明显比 9.11 大。但为什么这些 AI 大模型会犯这样的错误呢?我在文末会给出答案

国产大模型的表现

国内的 AI 大模型是怎么表现的。

  • 阿里的通义千问:不仅给出了正确的答案,还详细解释了为什么 9.9 大于 9.11。
  • 百度文心一言:同样正确地指出 9.9 大于 9.11。
  • 腾讯元宝昆仑万维的天工科大讯飞的星火大模型360 智脑百川智能:这些模型也都给出了正确的答案。

看来在这个问题上,国产大模型表现得相当不错。

错误原因分析

那么,为什么那些国外大模型会犯这样的错误呢?因为这些模型在比较数字时,错误地将整数部分和小数部分分开比较。它们先比较整数部分(都是 9),然后错误地认为 11 大于 9,从而得出了 9.11 大于 9.9 的结论。

我给大家上一个图,大家就知道了
我们使用阿里通义千问 的token计算工具:

https://dashscope.console.aliyun.com/tokenizer

在这里插入图片描述
除了上述原因,其实还有一个原因,所以大模型语言之所以叫做大模型语言,是因为它是一个文科生,它对任何内容都是以文字内容去理解的,这时候,你要是突然来一个数学题或者推理题,它就不会了,因为它没有学过数学。不像我们人类来讲,大脑有两个区域,一个是负责记忆系统,就是传统的内容知识,顾名思义就是背诵的内容,类似红灯停绿灯行;还有一个就是思维推理系统,就是负责运算和推理的,一旦告诉你某个知识点,你要按照这个规则去运算后面类似的运算,比如告诉你加法是个位相加,十位相加,然后让你算111+222等于几的时候,你就会类比推理。但是大模型就不会这个能力了,它只能是一个记忆系统,去搜索有没有111+222的答案,如果出现过了,那就直接告诉你答案,如果没有出现过,那就只能以文字的逻辑去告诉你等于多少

那为什么国内的大模型能够正确回答呢,那是因为做过这方面的训练,简单的内容大模型就会去按照你给的推理步骤一步步去计算了,但是如果你出一点难一点的数学题,他们还是不会算对的。

正因为如此,大模型之路其实还有很长的一段路要走,我还是挺期待通用大模型的来临的

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部