AI 考倒小学生:大模型为何连 9.11 和 9.9 哪个大都答不上来?

元描述: 揭秘AI大模型为何在简单的数学比较问题上频频出错,探究其背后原因,探讨模型的数学能力发展以及未来应用场景的挑战。

引言:

一道小学生难度的数学题,却难倒了一众海内外AI大模型。9.11 和 9.9 哪个更大?这个问题看似简单,却引发了大众对AI能力的质疑。众多大型语言模型,包括 ChatGPT、Google Gemini Advanced 和 Claude 3.5 Sonnet 等,都被这看似简单的题目给难住了。它们不是错误地比较了小数点后的数字,便是胡乱举例,甚至在被质疑后依然坚持错误答案。这一事件再次引发了人们对AI数学能力的关注,也让我们思考:AI究竟何时才能真正具备像人类一样的理解和思考能力?

大模型集体“智障”:9.11 和 9.9 哪个大?

这场AI“智商”大比拼的起源,可以追溯到最近一期的《歌手》节目。节目中,孙楠和香缇莫的得票率分别是 13.8% 和 13.11%,引来了网友关于哪个数字更大的讨论。网友们纷纷表示,自己不会的话,就问问AI,结果发现不少AI也“一头雾水”。

为了验证这一现象,第一财经记者分别测试了 12 个大模型,包括阿里通义千问、百度文心一言、Minimax 和腾讯元宝等。结果令人惊讶:仅有阿里通义千问、百度文心一言、Minimax 和腾讯元宝 4 个大模型答对了,其余 8 个大模型都给出了错误答案。

各路大模型的“奇葩”回答

虽然答对的大模型解题思路都比较相似,但答错的大模型却各有各的“奇葩”逻辑和表达。

ChatGPT 认为“11大于9”,所以 9.11 大于 9.9。当被追问时,它又开始用分数比较,但最终得出错误结论。

月之暗面旗下的 kimi 则错误地比较了小数点后的第一位,认为 9.11 的第一位小数是 1,而 9.9 的第一位小数是 0,所以 9.11 更大。

字节豆包 则试图用生活中的例子来解释,比如假设两笔钱,“9.11 元比 9.9 元多 0.21 元”,以及测量长度时“9.11 米要比 9.9 米长”。

智谱清言 虽然提到了 9.11 的十分位是 1,而 9.9 的十分位是 9,但仍然错误地得出结论“9.11 整体大于 9.9”,并声称“这个结果可能让人感到意外”。

商汤商量 首先给出了错误答案,在解释过程中也出现了逻辑混乱,最终承认“解释有误”。

阶跃星辰跃问 在解释中也出现前后矛盾,甚至试图用“日常生活中 9.9 比 9.11 大”来解释自己的错误。

百川智能和零一万物 则在被质疑后默默改了答案,让人不禁怀疑它们是否真的“理解”了问题。

大模型的数学短板:文科生思维 vs. 理科生逻辑

为何号称智能的大模型答不好小学生数学题?这并非个例,数学能力一直是大模型的短板。行业内也多次讨论过大模型的数学和复杂推理能力较差,甚至 GPT-4 也存在很大进步空间。

那么,问题究竟出在哪?

  • 生成式语言模型的架构缺陷: 生成式的语言模型往往是通过预测下一个词的监督学习方式进行训练,更擅长处理相关性,而数学推理更需要因果性。

  • Tokenizer 的数字切分问题: Tokenizer 在处理数字时可能被拆成不合理的片段,破坏了数字的整体性。

  • 训练语料的局限性: 互联网上的文本数据中数学问题和解决方案相对较少,导致模型在数学推理和问题解决技能上的训练机会有限。

AI 想要学好数学,需要进行思维训练,拥有推理演绎能力。 更重要的,是构建更体系化的训练数据,而不是简单地依靠互联网数据。

大模型的未来:复杂推理能力是关键

大模型的复杂推理能力尤为重要,这关乎可靠性和准确性,是大模型在金融、工业等场景落地需要的关键能力。

现在很多大模型的应用场景是客服、聊天等等,在聊天场景一本正经胡说八道影响不太大。但它很难在非常严肃的商业场合去落地。

未来,随着大模型进入商用,分析财报、技术文档等都将对数学能力提出更高的要求。

常见问题解答:

1. 为什么AI大模型在简单的数学问题上也经常出错?

AI大模型在数学问题上出错,主要是因为它们的训练数据中数学问题和解决方案较少,加上模型架构和分词器 (Tokenizer) 的缺陷,导致它们缺乏逻辑推理和演绎能力。

2. 大模型的数学能力是否有提升空间?

当然有,通过构建更体系化的训练数据,并针对数学推理进行专门训练,AI的数学能力可以得到显著提高。

3. 大模型的数学能力对于其未来应用场景有何影响?

大模型的数学能力关系到其可靠性和准确性,是其在金融、工业等领域落地应用的关键。

4. 大模型何时能像人类一样理解和思考?

目前,AI大模型距离像人类一样理解和思考还有很长的路要走,但随着技术的不断发展,未来AI有可能具备更强大的思维能力。

5. 除了数学能力之外,AI大模型还有哪些需要突破的瓶颈?

除了数学能力,AI大模型还需要突破情感理解、常识推理、创造力等方面的瓶颈。

6. 如何评估AI大模型的能力?

评估AI大模型能力的方法有很多,例如测试其在不同领域的知识、推理能力、解决问题的能力、创造力等。

结论:

AI大模型的数学能力短板暴露了其在理解和思考方面的不足,也提醒我们,AI的发展需要更深入的探索和突破。未来,除了继续提升模型的通用能力,还需要针对特定领域进行专项训练,以满足不同场景的应用需求。相信随着技术的不断进步,AI将能够更好地理解人类世界,为人类社会做出更大的贡献。