今天发现有这么个网站做的挺不错,就是用新的数学竞赛题去考察已经推出的AI模型,避免模型学习过原题的状况。
比如 USAMO 2025 各个AI模型的排名是这样的:
持续关注一下看看接下来几年这些模型进步如何
今天发现有这么个网站做的挺不错,就是用新的数学竞赛题去考察已经推出的AI模型,避免模型学习过原题的状况。
比如 USAMO 2025 各个AI模型的排名是这样的:
持续关注一下看看接下来几年这些模型进步如何
Transformer 只会背 在下一个架构的模型出现之前 很难会有巨大提升 不过讲真 如果AI 模型有一天会从已知的东西推出从来没见过的东西 想想就可怕…
目前拒绝相信AI有推理的能力
这么看其实o3是最强的
可以切到别的页面看看 AIME 的那几个题 o4基本满分。。。
实际使用来看4o最好用,无论是准确率还是推理速度
chatgpt 4o和4o checkpoint不一样,chatgpt-4o明显是从reasoning model里面distill过的