AI模型数学能力排行榜

amigo · 2025 年4 月 21 日 13:12

今天发现有这么个网站做的挺不错，就是用新的数学竞赛题去考察已经推出的AI模型，避免模型学习过原题的状况。

比如 USAMO 2025 各个AI模型的排名是这样的：

持续关注一下看看接下来几年这些模型进步如何

Stoejf · 2025 年4 月 21 日 13:14

Transformer 只会背在下一个架构的模型出现之前很难会有巨大提升不过讲真如果AI 模型有一天会从已知的东西推出从来没见过的东西想想就可怕…

oOTTOo · 2025 年4 月 21 日 13:15

目前拒绝相信AI有推理的能力

Mesocyclone · 2025 年4 月 21 日 18:29

这么看其实o3是最强的

列.伊.勃列日涅夫 · 2025 年4 月 21 日 18:39

可以切到别的页面看看 AIME 的那几个题 o4基本满分。。。

Cal1 · 2025 年4 月 21 日 19:19

根本原因就是这些llm based ai不会做证明题啊

数字答案的填空题RL训过了做得飞起

usamo一堆证明题当然跪了，而且数字填空题可以测pass@n，证明题要人类批改怎么测

白洲梓的星怒 · 2025 年4 月 21 日 19:20

实际使用来看4o最好用，无论是准确率还是推理速度

Cal1 · 2025 年4 月 21 日 19:21

chatgpt 4o和4o checkpoint不一样，chatgpt-4o明显是从reasoning model里面distill过的