AI模型数学能力排行榜

今天发现有这么个网站做的挺不错,就是用新的数学竞赛题去考察已经推出的AI模型,避免模型学习过原题的状况。

比如 USAMO 2025 各个AI模型的排名是这样的:

持续关注一下看看接下来几年这些模型进步如何

Transformer 只会背 在下一个架构的模型出现之前 很难会有巨大提升 不过讲真 如果AI 模型有一天会从已知的东西推出从来没见过的东西 想想就可怕…

:yaoming: 目前拒绝相信AI有推理的能力

这么看其实o3是最强的

可以切到别的页面看看 AIME 的那几个题 o4基本满分。。。

根本原因就是这些llm based ai不会做证明题啊

数字答案的填空题RL训过了做得飞起

usamo一堆证明题当然跪了,而且数字填空题可以测pass@n,证明题要人类批改怎么测

实际使用来看4o最好用,无论是准确率还是推理速度

chatgpt 4o和4o checkpoint不一样,chatgpt-4o明显是从reasoning model里面distill过的