这个对能力有限的模型来说其实是正解
类似于人拿出纸写下来数
这个对能力有限的模型来说其实是正解
类似于人拿出纸写下来数
就是用的这个,context只有200k 没几个来回就是compact,4.7就没有这个问题
GitHub Copilot CLI上有了啊 4.7也早就上了
那应该是设置有问题 这个我一直都是1m context
工具入口不同,体感很容易差一截。
新出來已經造不出什麼浪了
这个Gemini还挺厉害。展开的结果也没什么问题吧。是8个“d”字母
你们开thinking了吗,我low+thinking也能答对,关掉max也不对
没,但这种问题应该最basic的model就应该要回答上来吧 ![]()
也有点道理吧,不think就只能在知识里找,这种没见过/低权重的只能瞎编,虽然不知道不think的话effort max在哪里了 ![]()
你问了3次吧亲
yysy这种一个词里有几个字母的问题, 就不是llm能干的吧
这些答对的基本都是作弊 要么针对性训练过 要么用web search
什么算作弊?
ds的模式好像是把单词列出再数,成功率很高。可能也可以数其他词里有没有一个字母。我觉得不算作弊
这个问题本来就比数字母容易
同理写代码来数也不是作弊