男同打屁股这说念数学题，Kimi和豆包谁答对了？

发布日期：2024-12-20 23:23 点击次数：94

出品｜虎嗅科技组男同打屁股

作家｜余杨

裁剪｜苗正卿

头图｜视觉中国

学生妹av

12月16日下昼，我照常使用Kimi，倏得发现Kimi数学版的善良小眼镜logo的眼镜框变大了。

鼠标移畴昔一看，“Kimi数学版”依然淡雅更名为“Kimi视觉想考版”。

这让我想起上周为Kimi数学版写的测评著作。原文如下：

11月26日下昼，Kimi上线了k0-math 模子驱动的 Kimi 数学版，官宣文相配浅显，一共3张图，1张主题，1张进口，1张材干测评，Kimi用数据谈话，奏凯对标了Chatgpt刚直红的o1-mini模子，主打一个“东说念主狠话未几”。

大概是为了面向更多的用户，官方还提供了玩法想路：“据说 Kimi 数学版不单会数学，就像《生涯大爆炸》里的 Sheldon 一样，它会用理科想维来解释生涯中的一切。你还不错试试让它陪你玩 24 点游戏。”

由于我的数学常识早已还给真挚，数学水和睦亟需AI升迁训导属性从而用来计划孩子作念功课的家长没什么区别，需要考据Kimi作念数学题到底行不行，这篇测评资格了一些周折，甚至于还未发出。

Kimi改版后，测评虽成物是东说念主非，但也有了扫视两个版块的Kimi差别的机会。

让我们扫数来望望，Kimi作念出了哪些改造。

前边提到，我的数学常识早已还给真挚，因此，我想了一个概念，用神话驯服神话，让AI给AI出题，望望Kimi在数学材干上发扬得奈何样。

领先，我让豆包帮我出一说念佛典数学弯曲考考它。豆包暗示，让Kimi讲授一下恣意大于 2 的偶数齐不错暗示为两个质数之和。

这是一说念尚未被全齐讲授的哥德巴赫料到数学题。

豆包也口舌常“厚说念”，但不紧要，AI冷凌弃东说念主多情，我们换一说念高中数学题试试水。

Kimi数学版

第一问很快，约莫20秒钟Kimi就给出了谜底，关系词第二小问，Kimi花了33秒。解答整说念题一共53秒。

总的来说，这是一说念旧例题，Kimi的发扬也可圈可点。

接下来看第二小问。

男同打屁股

在这个经由中，Kimi还使用了“关系词，我们不妨换个角度想考。”和“关系词，让我们再仔细扫视一番。”等等相配东说念主味儿的话，并认为我方的解答“趁火劫夺”。

豆包

转而，我又把这说念题扔回给豆包，让豆包解答，对于我方出的题，豆包一共花了40秒，第一问的解答次第与Kimi无出二致。

但第二问，豆包给出的谜底却是：

哇～

我们扫数来望望豆包的解题经由。

豆包被我方难倒了？

经东说念主类审查，Kimi和豆包的解法似乎齐有点问题。

领先，第一小问莫得争议。

而在第二小问中，Kimi的解题想路是莫得问题的，需要先解出m和k的关系。

但Kimi定点取来（h，k），取h没问题，k是直线斜率，是以不应该取k，至少应该换个字母，比如（h，h1）。

我推测，Kimi是恣意中式了两个字母暗示定点，而莫得翔实到极点纵坐概念字母k即是直线l的斜率。在这个谬误的基础之上，后续的推理齐出现了问题。

通过这种形势得出了“直线l并不老是通过一个固定点”的论断后，Kimi进一步建议“换个角度想考”的可能性。

关系词，基于上头的谬误，我们并弗成够肯定“存在一个与k无关的固定点”中的k指向的是直线斜率k，照旧定点纵坐标k，亦或是通过谬误次第得到的对于k的抒发式中的k。

要是雷同的情况出当今东说念主类解题经由中，“存在一个与k无关的固定点”更多地指向临了一种情况。可是Kimi 的初级谬误使得后续的究诘齐无兴趣了。

再看豆包，豆包诞妄进度与Kimi不相凹凸。

在临了一步的整理经由，当x=0时，豆包忽略了等式中k的存在，而得出了y = \pm \sqrt{\frac{4}{3}}的论断。

事实上，y=。而因为k是变动的，是以不存在定点。

它被我方出的题难倒了。

转头

数学，正本即是解开天地万物本源最为进攻的钥匙之一。早期东说念主类通过结绳、刻字来计数，到背面算盘出身，鼓动狡计的演化与发展，东说念主类的数学材干一直在以指数级升迁。狡计机初次完结边界演算，东说念主类浮滥数千年才能推算出的后果活龙活现，时于本日，这一棒交到了 AI 手上。

Kimi数学版发布之际，月之暗面独创东说念主杨植麟曾在媒体采访中暗示，“要是说长文本是月之暗面登月的第一步，那么升迁模子深度推理材干则是第二步。”

这套话语背后，映射的是也曾“百模大战”的AI圈对Scaling laws不再敬佩不疑，所谓Scaling laws是信托“肆意出遗址”，跟着模子边界、锻练数据和狡计资源的加多，模子性能会得到权贵升迁。

但跟着算力延长到一定的边界，这时算力的加多很难再奏凯升迁模子的质地。从Claude推出更高效的小模子开动，大模子“厂商”纷纷转向寻找有用的次第来Scale。

也即是说，这时的景况是，再加更多的算力，并不一定能看到奏凯的升迁。因为中枢是莫得高质地的数据，小几十G的token是东说念主类互联网积攒了20多年的上限。于是，要通过算法的改造，来开释Scaling的后劲。

对此，月之暗面选定了强化学习的次第和想维链（ChAIn of Thought，简称COT）时候，Kimi数学版即由此出圈，这项时候使模子能够像东说念主类一样进行逻辑推理和想考，从而在多个数学基准测试中杰出了主流AI模子。

另外需要翔实的是，为了Kimi数学版赢得更好的体验，公式推选使用 LaTeX 口头。不知说念奈何输入的话，不错截图或拍照给Kimi 旧例版，让Kimi 把图片转为 LaTeX 口头，然后复制题目给Kimi数学版，这次测评全齐罢免证据。

Kimi视觉想考版

今天，我找了历史纪录，把之前Kimi贯通的 LaTeX 口头数学题发给了Kimi。

对于第一小问，Kimi给出了如下解答。

领先，Kimi的数学公式秀气愈加完善了，另外，它加多了验算要道。

这次Kimi的解题经由耗时4分半钟，况兼，在3分10秒独揽的时代，Kimi经过了一个大大的停顿，似乎因为chat的篇幅所限，“断了”。

上周测评时我曾写到：“但显明从以上解题经由来看，‘像东说念主类一样进行逻辑推理和想考’似只停留在名义，这一宏伟构想还有一段路要走。”

从这周发布的Kimi视觉想考版看来，它似乎太“东说念主类”了，它会说“我以为我之前的张开可能有误”，还会说，“等等，还有一个想法”。

更进攻的是，到这里，Kimi的推演中断了，由于给我提供了“接着说”按钮，我推测是之前的推演篇幅过长，Chat的容量还需要调试。

我们先扫数来看接下来的解题要道。

实质还挺硬核，前次的测评，我请学数学的一又友看了看，东说念主类的解题想路在上文了。

这一次，把评分交给寰宇。

看到这里，你会想给Kimi点个赞吗？

要是你有不雅点、想法或想看的测评，宽宥和我交流。要是你心爱这期实质，别忘了一键三连，因为这亦然我探索更新的能源，我们下期相遇～。

上一篇：九儿巨乳睡前总思尿尿，是肾不好吗？刚尿完又思尿，咋回事？3种情况当心是疾病信号

下一篇：偷拍 *ST傲农(603363.SH)：公司拟变更为无骨子终了东说念主

男同 打屁股 这说念数学题，Kimi和豆包谁答对了？

相关资讯

男同打屁股这说念数学题，Kimi和豆包谁答对了？