Unsloth版的GGUF: unsloth/Qwen3.6-27B-GGUF · Hugging Face
在写码上狠狠的踢最伟大的公司的屁股 ![]()
Unsloth版的GGUF: unsloth/Qwen3.6-27B-GGUF · Hugging Face
在写码上狠狠的踢最伟大的公司的屁股 ![]()
有点猛,dense只比opus 4.5写码差一点。claude opus4.5在我看来已经是差不多能用的级别了,难不成以后真的是本地跑模型本地写码
只要阿里继续大锅猛火蒸,AI基建的故事就停不下来,中美又双赢了。
Qwen 3.5之后我就感觉本地模型对写码来说已经相当能用了,到现在玩了差不多一个月的本地coding agent
反正现在CC $100起步,本地推理的性价比还在提升
没准未来本地推理真能大众化也不一定
真证真正蒸了吗
你用的什么卡
我感觉我的3090TI内存不太够用啊
qwen蒸了谁不知道,claude新模型满嘴阿里味肯定是蒸了,阿里语至少P8级别的
之前我国内的朋友是用M3 Ultra跑GLM4.7+Qwen 3.5,他说体验确实不错,还不用担心降智或者供应商发癫,成本大概七千多刀。
为什么不直接买DGX?
各有好坏吧,DGX的内存带宽实在是不行
有钱就买几条RTX Pro 6000了不是 ![]()
本地serving最后只看TPS吧
prefill看flops,decode好像还是要看内存带宽的。
Mac 跑 dense 还是比 N 卡差距比较大,MOE 是 Mac 的甜点。这个 27B 是 5090 的甜点
24GB显存今天用哪个好呢?
TPS不是flops,就是decoding最终性能啊
Edit: 我怀疑Unsloth的Q5_K_M量化有问题,白天都在用Q6_K测试结果还不错,结果换Q5_K_M烂爆了。推荐用Q6_K或者UD_Q5_K_XL,晚上跑Q5_K_M的测试发现这量化做静分析表现稀烂,容易出现非常重的幻觉,UD_Q5_K_XL表现就相当正常了而且roll了几遍都稳定。
不带mmproj,KV cache Q8,Q5_K_M用-np 1 -c 262144大概是这个情况:
common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted |
common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 1738 + (28287 = 17761 + 8853 + 1672) + 2062 |
common_memory_breakdown_print: | - Host | 1897 = 833 + 0 + 1064 |
24G显存的话如果不开桌面环境那估计是够131072上下文的
common_memory_breakdown_print: | memory breakdown [MiB] | total free self model context compute unaccounted |
common_memory_breakdown_print: | - CUDA0 (RTX 5090) | 32088 = 562 + (23253 = 17761 + 4501 + 990) + 8272 |
common_memory_breakdown_print: | - Host | 1385 = 833 + 0 + 552 |
Q6_K在24G显存下应该跑不起来,32G不带桌面的话应该能跑-np 1 -c 262144或者245760
开桌面环境就有点够呛了
看很多mac用户都提到prefill慢,毕竟prefill吃显卡算力。当然如果内存够大把–cache-ram开高,context都能cache到内存里随便切换那影响其实也没那么大。
Q5_K_MQ5_K_XL或者略小一点的量化应该都没问题,其实27b和隔壁的26b moe是最适合24G的尺寸
哦哦哦我看错了,我没比较过DGX和M3 ultra,但据我朋友说llama.cpp下实际decoding还是M3 Ultra强一点。 Spark 更像在某些 prefill/低比特矩阵场景有爆发力,上限更高。也可能是之前llama.cpp对Spark优化不够。
差一点 体验还是会很不一样吧
opus 4.5已经是去年11月份的水平了,那个时候已经在狂用vibe coding了,我感觉性能是足够了 ![]()
这配置本地推理时间怎么样?
主力模型是200多B的MoE GLM4.7,9t/s 勉强能用的水平。每天大概能对话个20来次,但长上下文就不太行了。其他的不太清楚,我目前还不想搞本地模型。