以后能不能手机跑的模型都干爆Claude4.6?
Inference 的话也要看具体应用场景啊
如果prompt长,cache hit 高,本地inference的cache hit 成本是0,而且cache可以落盘,所以有几种情况合算
- 多个长input的prompt,超过在线api TTL 定期运行
- 长inout的prompt,没超过在线api ttl,但是频率很高而且没有特别多生成的token(龟速),主要为prefill
5 个赞
问题是<30B的小模型相比于Claude, GPT这种上T的大模型效果差距太大了,完全无法比较
现在感觉小模型唯一用处就是VLA
用on-prem的小模型解决一些涉及PII的应用场景还是不错的
简单测了几个自己的test case感觉只用半个月时间又把gemma 4 26b踢死了
就差一个dense模型了
用上了,感觉确实不错
前几天出了个差不多的,记不起来名字了
测了半小时这模型,本来想试试这玩意q6能不能打赢q3的26b a4b了,结果感觉速度和质量双输
为了测unified model的图像能力给这模型喂了几个截图,结果OCR都OCR不清楚,CoT还贼长,感觉远不能平替26b a4b ![]()
1 个赞
测了 什么垃圾玩意儿 不如qwen3.5 9b一根毛
1 个赞
本地模型和deekseek v4 api比起来都没啥优势
还有高手?
Gemma 4 QAT - a unsloth Collection 顺便放一下Unsloth的GGUF在这里
1 个赞
有人把这个跑起来了吗?vLLM的nightly也不行啊怎么敢吹自己有out of the box vLLM支持的 ![]()