Qwen 3.6 27B来了

Keiour · 2026 年4 月 22 日 15:21

Unsloth版的GGUF: unsloth/Qwen3.6-27B-GGUF · Hugging Face

在写码上狠狠的踢最伟大的公司的屁股

Rosmontis · 2026 年4 月 22 日 15:31

有点猛，dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了，难不成以后真的是本地跑模型本地写码

dancingbro · 2026 年4 月 22 日 15:45

只要阿里继续大锅猛火蒸，AI基建的故事就停不下来，中美又双赢了。

Keiour · 2026 年4 月 22 日 15:47

Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了，到现在玩了差不多一个月的本地coding agent

反正现在CC $100起步，本地推理的性价比还在提升没准未来本地推理真能大众化也不一定

收束观测者 · 2026 年4 月 22 日 15:48

真证真正蒸了吗

你用的什么卡

我感觉我的3090TI内存不太够用啊

Wi-Fi · 2026 年4 月 22 日 15:50

qwen蒸了谁不知道，claude新模型满嘴阿里味肯定是蒸了，阿里语至少P8级别的

Rosmontis · 2026 年4 月 22 日 15:50

之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5，他说体验确实不错，还不用担心降智或者供应商发癫，成本大概七千多刀。

收束观测者 · 2026 年4 月 22 日 15:51

为什么不直接买DGX？

Rosmontis · 2026 年4 月 22 日 15:51

各有好坏吧，DGX的内存带宽实在是不行
有钱就买几条RTX Pro 6000了不是

收束观测者 · 2026 年4 月 22 日 15:52

本地serving最后只看TPS吧

Rosmontis · 2026 年4 月 22 日 15:53

prefill看flops，decode好像还是要看内存带宽的。

icework · 2026 年4 月 22 日 15:56

Mac 跑 dense 还是比 N 卡差距比较大，MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点

knowledge · 2026 年4 月 22 日 15:57

24GB显存今天用哪个好呢？

收束观测者 · 2026 年4 月 22 日 16:06

TPS不是flops，就是decoding最终性能啊

Keiour · 2026 年4 月 22 日 16:14

Edit: 我怀疑Unsloth的Q5_K_M量化有问题，白天都在用Q6_K测试结果还不错，结果换Q5_K_M烂爆了。推荐用Q6_K或者UD_Q5_K_XL，晚上跑Q5_K_M的测试发现这量化做静分析表现稀烂，容易出现非常重的幻觉，UD_Q5_K_XL表现就相当正常了而且roll了几遍都稳定。

不带mmproj，KV cache Q8，Q5_K_M用-np 1 -c 262144大概是这个情况：

common_memory_breakdown_print: | memory breakdown [MiB] | total   free     self   model   context   compute    unaccounted |
common_memory_breakdown_print: |   - CUDA0 (RTX 5090)   | 32088 = 1738 + (28287 = 17761 +    8853 +    1672) +        2062 |
common_memory_breakdown_print: |   - Host               |                  1897 =   833 +       0 +    1064                |

24G显存的话如果不开桌面环境那估计是够131072上下文的

common_memory_breakdown_print: | memory breakdown [MiB] | total   free     self   model   context   compute    unaccounted |
common_memory_breakdown_print: |   - CUDA0 (RTX 5090)   | 32088 =  562 + (23253 = 17761 +    4501 +     990) +        8272 |
common_memory_breakdown_print: |   - Host               |                  1385 =   833 +       0 +     552                |

Q6_K在24G显存下应该跑不起来，32G不带桌面的话应该能跑-np 1 -c 262144或者245760

开桌面环境就有点够呛了

看很多mac用户都提到prefill慢，毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高，context都能cache到内存里随便切换那影响其实也没那么大。

~~Q5_K_M~~Q5_K_XL或者略小一点的量化应该都没问题，其实27b和隔壁的26b moe是最适合24G的尺寸

Rosmontis · 2026 年4 月 22 日 16:15

哦哦哦我看错了，我没比较过DGX和M3 ultra，但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力，上限更高。也可能是之前llama.cpp对Spark优化不够。

无名之辈 · 2026 年4 月 22 日 16:16

差一点体验还是会很不一样吧

Rosmontis · 2026 年4 月 22 日 16:17

opus 4.5已经是去年11月份的水平了，那个时候已经在狂用vibe coding了，我感觉性能是足够了

Forlorner · 2026 年4 月 22 日 16:22

这配置本地推理时间怎么样？

Rosmontis · 2026 年4 月 22 日 16:24

主力模型是200多B的MoE GLM4.7，9t/s 勉强能用的水平。每天大概能对话个20来次，但长上下文就不太行了。其他的不太清楚，我目前还不想搞本地模型。