Claude Opus 4.8发布

这个对能力有限的模型来说其实是正解

类似于人拿出纸写下来数

1 个赞

就是用的这个,context只有200k 没几个来回就是compact,4.7就没有这个问题

GitHub Copilot CLI上有了啊 4.7也早就上了

拉完了,deepseek 4 flash都能答对

那应该是设置有问题 这个我一直都是1m context

1 个赞

工具入口不同,体感很容易差一截。

连 gemini 3 flash lite 都能答对

直到点开完整回答

新出來已經造不出什麼浪了

神了,仍然没解决

而且俩回答还不一样哈哈

这个Gemini还挺厉害。展开的结果也没什么问题吧。是8个“d”字母

你们开thinking了吗,我low+thinking也能答对,关掉max也不对

没,但这种问题应该最basic的model就应该要回答上来吧 :distorted_face:

也有点道理吧,不think就只能在知识里找,这种没见过/低权重的只能瞎编,虽然不知道不think的话effort max在哪里了 :yaoming:

再也不说claude蒸馏千问了 :yaoming:

你问了3次吧亲






我还可以问更多次

yysy这种一个词里有几个字母的问题, 就不是llm能干的吧

这些答对的基本都是作弊 要么针对性训练过 要么用web search

1 个赞

什么算作弊?

ds的模式好像是把单词列出再数,成功率很高。可能也可以数其他词里有没有一个字母。我觉得不算作弊

这个问题本来就比数字母容易

同理写代码来数也不是作弊