Google欣然发布Gemma4,本地模型媲美云端大模型不是梦?

以后能不能手机跑的模型都干爆Claude4.6?

Inference 的话也要看具体应用场景啊

如果prompt长,cache hit 高,本地inference的cache hit 成本是0,而且cache可以落盘,所以有几种情况合算

  1. 多个长input的prompt,超过在线api TTL 定期运行
  2. 长inout的prompt,没超过在线api ttl,但是频率很高而且没有特别多生成的token(龟速),主要为prefill
5 个赞

问题是<30B的小模型相比于Claude, GPT这种上T的大模型效果差距太大了,完全无法比较

现在感觉小模型唯一用处就是VLA

用on-prem的小模型解决一些涉及PII的应用场景还是不错的

qwen 3.6 35b-a3b来了

简单测了几个自己的test case感觉只用半个月时间又把gemma 4 26b踢死了 :yaoming: 就差一个dense模型了

用上了,感觉确实不错

珍码4 12B现已加入豪华套餐

1 个赞

前几天出了个差不多的,记不起来名字了

测了半小时这模型,本来想试试这玩意q6能不能打赢q3的26b a4b了,结果感觉速度和质量双输 :yaoming: 为了测unified model的图像能力给这模型喂了几个截图,结果OCR都OCR不清楚,CoT还贼长,感觉远不能平替26b a4b :yaoming:

1 个赞

测了 什么垃圾玩意儿 不如qwen3.5 9b一根毛

1 个赞

本地模型和deekseek v4 api比起来都没啥优势

还有高手?

Gemma 4 QAT - a unsloth Collection 顺便放一下Unsloth的GGUF在这里

1 个赞

有人把这个跑起来了吗?vLLM的nightly也不行啊怎么敢吹自己有out of the box vLLM支持的 :yaoming: