石川澪 白虎 o1 pro挑战好意思国脉科生最难数学竞赛,30分钟交卷却被大佬现场打脸
裁剪:裁剪部 HYZ石川澪 白虎
【新智元导读】好意思国脉科生最难数学竞赛,o1 pro真的只用半小时就全部作念出来了?要知谈,参赛学生的平素答题时长是6小时。不外网友们仔细看它的解题经过后发现,曲折率似乎高达100%,12谈题莫得一起十足正确?
一年一次的北好意思最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)已矣。
这场普特南数学竞赛(Putnam Exam),每年会聚了来自北好意思数百所高校的3500多名学生前来参赛。
既有个体,也有团体,他们需要在总时长为6小时的工夫内完成作答。
在这场比赛还未运转之前,来自IBM盘考员曾示意,在公开题目发布后,会有东谈主对大模子(AlphaProof、o1、Gemini)进行题目测试。
碰巧,OpenAI最近发布了满血版o1,以及最强o1 pro,不知它们在这场熟练发达若何?
相较于o1-preview,o1数学性能提高27%,o1 pro提高36%
o1 Pro半小时作念出全部赛题
令东谈主吃惊的是,有网友把这次普特南熟练的考题给了OpenAI o1 pro。
6个小时的赛题,它尽然半小时就作念出来了!
用时最长的一起题花了6分52秒,最短的只用了1分12秒
瞩目看了谜底的网友们流露松了相接:o1 pro还远未达到普特南熟练的水平。
比如关于A1这谈题,天然它只用了1分钟58秒就作念了出来,总体想路亦然正确的,但仍有好多曲折。
A2也莫得十足处理。
要是在普特南答卷上写「……等等激烈标明我是对的」,显着你不会得分。
A3的谜底,是曲折的。
网友成功给出了正确的解题想路:不错诓骗鸽巢道理(抽屉道理)来解说在给定欺压条目下,只存在独逐一个灵验双射函数,并由此不错推导出不存在恬逸题目要求的a、b、c、d值。
关于B1石川澪 白虎,谜底在n和k的模样上是正确的,但扫数这个词解说设施十足站不住脚。
总之,o1 pro似乎莫得一起题是正确的。
这个恶果属实有点惊东谈主,因为其中一些问题难度莫得那么高,比一些AIME竞赛题容易。
天然,要是从作念出题指标数目来说,o1 pro的发达照旧可圈可点。
现在来说,o1 pro作念出的题目王人是曲折且不完整的。要是咱们不以数学家的角度评判,不错合计它们很智慧。
更多评测
CodeSignal创举东谈主Tigran Sloyan开启了两轮大测试,让o1 pro分散去处理普特南数学竞赛A1题,色色淫以及IMO试题。
显着,在普特南数学竞赛测试中,o1 pro成效作念对了第一题。
得分+10,就仍是卓著了30%的参赛者。
如下,是o1 pro的全部解题经过。
而在IMO测试中,o1 pro完满处理了2006年测试荟萃最难的Q3题,只是用了6分48秒。
相较之下,在2006年大家大要500名19岁以下顶尖数学天才中,唯独28东谈主能在4个半小时内十足解出这谈题。而好意思国对的6名成员,却无一东谈主作念到。
这是o1 pro的分析经过,天然很爽脆,好像不祥了好多解说要领。
Sloyan非常要求让其展示第4、5步的具体解说经过,o1 pro随后彭胀出的想维经过一样令东谈主印象长远。
何况,他还测试其他模子(包括o1),尝试作念这谈题目,却王人失败了。
日本av女优没猜想,这个恶果惊动了xAI科学家Hieu Pham。
他流露,o1 pro的谜底十足是瞎掰八谈。要是在IMO竞赛中提交这么的解答,最多也只可给1分(满分7分)。要是遭逢宽松的裁判员,最多给2分,不会再多了。
他接着称,老师数据问题是一部分,这个谜底 rac{9}{16 \sqrt{2}}很可疑。IMO的题目妥协答就像是数学CoT的黄金老师数据集,是以这些模子一会被反复老师大宗遍。
另一位盘考员Jason Li测试后叹气谈,o1似乎仍是处理掉了一半的问题(60分/满分120),这在普特南竞赛的历史名次中大要能冲进前2%的参赛者之列。
o1挑战23年赛题
本年9月,o1发布不久后,AI评估平台HoneyHive曾让新模子去挑战了23年普特南数学竞赛的题目。
那时,OpenAI公开的测试恶果显现,o1的数学性能大幅卓著了GPT-4o,飙升43.3%兑现了质的飞升。
在这场比赛中,o1-preview拿下了79分(满分120)位列第9,o1-mini取得了73,名挨次19。
2023年普特南数学竞赛问题集,如下所示:
HoneyHive的评估设施是,每个模子重迭运行2次,并让GPT-4o动作程序的判断者,以评估模子的谜底,最终再由东谈主类大家进行考证。
底下是让GPT-4o承担「评估者」变装的教导示例。
盘考东谈主员发现,第二次运行时,o1-preview得分从51提高到79,o1-mini从54提高到73,GPT-4o也从43提高到57。
在第二轮中,扫数的模子王人在悉力给出解说,具体来说:
o1-preview十足处理了问题A1、A3、B4,部分处理了问题B2,但解说不及。
o1-mini的恶果,与o1-preview访佛。GPT-4o仅是十足处理了A1问题。
道理的是,这些模子的恶果天然是正确的,但处理有打算缺少瞩观念分步解释,非常是关于解说类的问题。
比如,o1-preview和o1-mini在问题B2上王人因字据不及、不够严谨吃亏了一些分数,尽管最终恶果是正确的。
他们合计,这可能是因为AI模子在抒发或走访其里面「想维链」时,存在一定的局限性。
不外,IBM盘考员流露,大略拿下一定的高分,天然也存在了数据表现的可能性。
比赛先容
普特南数学竞赛(全称William Lowell Putnam Mathematical Competition)专为好意思国和加拿大的本科生诞生,每年于12月举办一届,本年是第85届年赛。
每年竞赛一共分为两场熟练,分散是上昼A试,下昼B试,各三小时。
这场比赛不错追忆到1938年,领先只是各个高校数学系之间的友好较量。如今,它仍是发展成为宇宙上最具泰斗的大学数学竞赛。
每年12月,数百所大学数学尖子生在为期6小时数学中展现我方的数学才华。
尽管考生需要独处完成试卷,但比赛同期诞生了团队的要道。
普特南数学竞赛不单是是一场学问的较量,更是一个荣誉的殿堂。名次最高的团队的数学系不错得到现款奖励,学生成员还将被授予「普特南盘考员」的名称。
与此同期,比赛还诞生了「The Elizabeth Lowell Putnam Prize」奖项,专为发达超卓的女性数学家受奖。
前年第84届比赛中,个体获奖者5名全部来自MIT,团体获奖者前五名也分散来自宇宙高校:MIT、哈佛、杜克、斯坦福、多伦多大学。