石川澪白虎 o1 pro挑战好意思国脉科生最难数学竞赛，30分钟交卷却被大佬现场打脸

发布日期：2024-12-09 22:14 点击次数：75

石川澪白虎 o1 pro挑战好意思国脉科生最难数学竞赛，30分钟交卷却被大佬现场打脸

裁剪：裁剪部 HYZ石川澪白虎

【新智元导读】好意思国脉科生最难数学竞赛，o1 pro真的只用半小时就全部作念出来了？要知谈，参赛学生的平素答题时长是6小时。不外网友们仔细看它的解题经过后发现，曲折率似乎高达100%，12谈题莫得一起十足正确？

一年一次的北好意思最难本科数学竞赛，刚在MIT沃克纪念堂（Walker Memorial）已矣。

这场普特南数学竞赛（Putnam Exam），每年会聚了来自北好意思数百所高校的3500多名学生前来参赛。

既有个体，也有团体，他们需要在总时长为6小时的工夫内完成作答。

在这场比赛还未运转之前，来自IBM盘考员曾示意，在公开题目发布后，会有东谈主对大模子（AlphaProof、o1、Gemini）进行题目测试。

碰巧，OpenAI最近发布了满血版o1，以及最强o1 pro，不知它们在这场熟练发达若何？

相较于o1-preview，o1数学性能提高27%，o1 pro提高36%

o1 Pro半小时作念出全部赛题

令东谈主吃惊的是，有网友把这次普特南熟练的考题给了OpenAI o1 pro。

6个小时的赛题，它尽然半小时就作念出来了！

用时最长的一起题花了6分52秒，最短的只用了1分12秒

瞩目看了谜底的网友们流露松了相接：o1 pro还远未达到普特南熟练的水平。

比如关于A1这谈题，天然它只用了1分钟58秒就作念了出来，总体想路亦然正确的，但仍有好多曲折。

A2也莫得十足处理。

要是在普特南答卷上写「……等等激烈标明我是对的」，显着你不会得分。

A3的谜底，是曲折的。

网友成功给出了正确的解题想路：不错诓骗鸽巢道理（抽屉道理）来解说在给定欺压条目下，只存在独逐一个灵验双射函数，并由此不错推导出不存在恬逸题目要求的a、b、c、d值。

关于B1石川澪白虎，谜底在n和k的模样上是正确的，但扫数这个词解说设施十足站不住脚。

总之，o1 pro似乎莫得一起题是正确的。

这个恶果属实有点惊东谈主，因为其中一些问题难度莫得那么高，比一些AIME竞赛题容易。

天然，要是从作念出题指标数目来说，o1 pro的发达照旧可圈可点。

现在来说，o1 pro作念出的题目王人是曲折且不完整的。要是咱们不以数学家的角度评判，不错合计它们很智慧。

更多评测

CodeSignal创举东谈主Tigran Sloyan开启了两轮大测试，让o1 pro分散去处理普特南数学竞赛A1题，色色淫以及IMO试题。

显着，在普特南数学竞赛测试中，o1 pro成效作念对了第一题。

得分+10，就仍是卓著了30%的参赛者。

如下，是o1 pro的全部解题经过。

而在IMO测试中，o1 pro完满处理了2006年测试荟萃最难的Q3题，只是用了6分48秒。

相较之下，在2006年大家大要500名19岁以下顶尖数学天才中，唯独28东谈主能在4个半小时内十足解出这谈题。而好意思国对的6名成员，却无一东谈主作念到。

这是o1 pro的分析经过，天然很爽脆，好像不祥了好多解说要领。

Sloyan非常要求让其展示第4、5步的具体解说经过，o1 pro随后彭胀出的想维经过一样令东谈主印象长远。

何况，他还测试其他模子（包括o1），尝试作念这谈题目，却王人失败了。

没猜想，这个恶果惊动了xAI科学家Hieu Pham。

他流露，o1 pro的谜底十足是瞎掰八谈。要是在IMO竞赛中提交这么的解答，最多也只可给1分（满分7分）。要是遭逢宽松的裁判员，最多给2分，不会再多了。

他接着称，老师数据问题是一部分，这个谜底 rac{9}{16 \sqrt{2}}很可疑。IMO的题目妥协答就像是数学CoT的黄金老师数据集，是以这些模子一会被反复老师大宗遍。

另一位盘考员Jason Li测试后叹气谈，o1似乎仍是处理掉了一半的问题（60分/满分120），这在普特南竞赛的历史名次中大要能冲进前2%的参赛者之列。

o1挑战23年赛题

本年9月，o1发布不久后，AI评估平台HoneyHive曾让新模子去挑战了23年普特南数学竞赛的题目。

那时，OpenAI公开的测试恶果显现，o1的数学性能大幅卓著了GPT-4o，飙升43.3%兑现了质的飞升。

在这场比赛中，o1-preview拿下了79分（满分120）位列第9，o1-mini取得了73，名挨次19。

2023年普特南数学竞赛问题集，如下所示：

HoneyHive的评估设施是，每个模子重迭运行2次，并让GPT-4o动作程序的判断者，以评估模子的谜底，最终再由东谈主类大家进行考证。

底下是让GPT-4o承担「评估者」变装的教导示例。

盘考东谈主员发现，第二次运行时，o1-preview得分从51提高到79，o1-mini从54提高到73，GPT-4o也从43提高到57。

在第二轮中，扫数的模子王人在悉力给出解说，具体来说：

o1-preview十足处理了问题A1、A3、B4，部分处理了问题B2，但解说不及。

o1-mini的恶果，与o1-preview访佛。GPT-4o仅是十足处理了A1问题。

道理的是，这些模子的恶果天然是正确的，但处理有打算缺少瞩观念分步解释，非常是关于解说类的问题。

比如，o1-preview和o1-mini在问题B2上王人因字据不及、不够严谨吃亏了一些分数，尽管最终恶果是正确的。

他们合计，这可能是因为AI模子在抒发或走访其里面「想维链」时，存在一定的局限性。

不外，IBM盘考员流露，大略拿下一定的高分，天然也存在了数据表现的可能性。

比赛先容

普特南数学竞赛（全称William Lowell Putnam Mathematical Competition）专为好意思国和加拿大的本科生诞生，每年于12月举办一届，本年是第85届年赛。

每年竞赛一共分为两场熟练，分散是上昼A试，下昼B试，各三小时。

这场比赛不错追忆到1938年，领先只是各个高校数学系之间的友好较量。如今，它仍是发展成为宇宙上最具泰斗的大学数学竞赛。

每年12月，数百所大学数学尖子生在为期6小时数学中展现我方的数学才华。

尽管考生需要独处完成试卷，但比赛同期诞生了团队的要道。

普特南数学竞赛不单是是一场学问的较量，更是一个荣誉的殿堂。名次最高的团队的数学系不错得到现款奖励，学生成员还将被授予「普特南盘考员」的名称。

与此同期，比赛还诞生了「The Elizabeth Lowell Putnam Prize」奖项，专为发达超卓的女性数学家受奖。

前年第84届比赛中，个体获奖者5名全部来自MIT，团体获奖者前五名也分散来自宇宙高校：MIT、哈佛、杜克、斯坦福、多伦多大学。

上一篇：推特文爱六版《神雕侠侣》的雕兄，图一搞笑，图三变秃鹫，图六是真东说念主演出

下一篇：indian sex5 辣椒炒豆干，生手初学也能秒变大厨的家常绝活！