Qwen 3.6 27B来了

Unsloth版的GGUF: unsloth/Qwen3.6-27B-GGUF · Hugging Face

在写码上狠狠的踢最伟大的公司的屁股 :troll:

11 个赞

有点猛,dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了,难不成以后真的是本地跑模型本地写码

1 个赞

只要阿里继续大锅猛火蒸,AI基建的故事就停不下来,中美又双赢了。

7 个赞

Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了,到现在玩了差不多一个月的本地coding agent

反正现在CC $100起步,本地推理的性价比还在提升 :yaoming: 没准未来本地推理真能大众化也不一定

5 个赞

真证真正蒸了吗

你用的什么卡

我感觉我的3090TI内存不太够用啊

qwen蒸了谁不知道,claude新模型满嘴阿里味肯定是蒸了,阿里语至少P8级别的

4 个赞

之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5,他说体验确实不错,还不用担心降智或者供应商发癫,成本大概七千多刀。

为什么不直接买DGX?

各有好坏吧,DGX的内存带宽实在是不行
有钱就买几条RTX Pro 6000了不是 :yaoming:

1 个赞

本地serving最后只看TPS吧

prefill看flops,decode好像还是要看内存带宽的。

1 个赞

Mac 跑 dense 还是比 N 卡差距比较大,MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点

1 个赞

24GB显存今天用哪个好呢?

TPS不是flops,就是decoding最终性能啊

Edit: 我怀疑Unsloth的Q5_K_M量化有问题,白天都在用Q6_K测试结果还不错,结果换Q5_K_M烂爆了。推荐用Q6_K或者UD_Q5_K_XL,晚上跑Q5_K_M的测试发现这量化做静分析表现稀烂,容易出现非常重的幻觉,UD_Q5_K_XL表现就相当正常了而且roll了几遍都稳定。

不带mmproj,KV cache Q8,Q5_K_M用-np 1 -c 262144大概是这个情况:

common_memory_breakdown_print: | memory breakdown [MiB] | total   free     self   model   context   compute    unaccounted |
common_memory_breakdown_print: |   - CUDA0 (RTX 5090)   | 32088 = 1738 + (28287 = 17761 +    8853 +    1672) +        2062 |
common_memory_breakdown_print: |   - Host               |                  1897 =   833 +       0 +    1064                |

24G显存的话如果不开桌面环境那估计是够131072上下文的

common_memory_breakdown_print: | memory breakdown [MiB] | total   free     self   model   context   compute    unaccounted |
common_memory_breakdown_print: |   - CUDA0 (RTX 5090)   | 32088 =  562 + (23253 = 17761 +    4501 +     990) +        8272 |
common_memory_breakdown_print: |   - Host               |                  1385 =   833 +       0 +     552                |

Q6_K在24G显存下应该跑不起来,32G不带桌面的话应该能跑-np 1 -c 262144或者245760

开桌面环境就有点够呛了

看很多mac用户都提到prefill慢,毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高,context都能cache到内存里随便切换那影响其实也没那么大。

Q5_K_MQ5_K_XL或者略小一点的量化应该都没问题,其实27b和隔壁的26b moe是最适合24G的尺寸

3 个赞

哦哦哦我看错了,我没比较过DGX和M3 ultra,但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力,上限更高。也可能是之前llama.cpp对Spark优化不够。

差一点 体验还是会很不一样吧

opus 4.5已经是去年11月份的水平了,那个时候已经在狂用vibe coding了,我感觉性能是足够了 :yaoming:

这配置本地推理时间怎么样?

主力模型是200多B的MoE GLM4.7,9t/s 勉强能用的水平。每天大概能对话个20来次,但长上下文就不太行了。其他的不太清楚,我目前还不想搞本地模型。