Qwen 3.6 27B来了

Keiour · 2026 年4 月 22 日 16:27

因为GB10带宽其实很小，远低于M3 / M5 Ultra

DGX Spark是个带宽和Strix Halo一桌的抽象玩意，定价却非常自信。这玩意128G版本定价3000最多了，隔壁Strix Halo打价格战优势太大了。

Forlorner · 2026 年4 月 22 日 16:33

那还是慢

推理速度现在真的是限制本地模型最大的瓶颈

Rosmontis · 2026 年4 月 22 日 16:34

没办法，还是那句话，有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。

皮皮虾 · 2026 年4 月 22 日 16:36

没点进来前就知道会看见“蒸”字啥时候能在国产模型相关话题看不见这个字。。

ban 掉之后感觉很多人唯一能留的评论都没了

Keiour · 2026 年4 月 22 日 16:37

要速度只能直接用GPU了，双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下，48G显存现在也就2000出头。或者直接5090，今天3000不到，Q5可以跑到50 tps以上，缺点是显存小点。

留下了贫穷的泪水.png

后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了

DeutscheGrammophon · 2026 年4 月 22 日 16:40

蒸蚌！

匿名用户nitan · 2026 年4 月 22 日 16:41

那感觉某宝整个魔改32g的4080最划算？现在才12k人刀。不知道能跑多少tps

Keiour · 2026 年4 月 22 日 16:51

256 bit差不多700G的带宽，理论极限是20G的active param跑到35 tps，我估计跑27b dense Q5 30 tps不到一点吧，毕竟带宽一般是用不满的，有一点overhead。n卡prefill都是很快的TTFT可以忽略。

不知道4090 48现在啥价格，这玩意带宽更强显存也够。

匿名用户nitan · 2026 年4 月 22 日 16:55

22-24k人刀贵不少了

Eric · 2026 年4 月 22 日 17:18

我觉得怎么搞都无所谓，只要能把token的价格打下来就行

什么，你不爽因为你是等着上市发财的A社员工啊，那没事了

pikachu12138 · 2026 年4 月 22 日 17:23

这玩意macbook pro本地跑能行吗？有点想本地整一个，效率高吗

vwai · 2026 年4 月 22 日 17:25

5070ti能跑啥

Onvon · 2026 年4 月 22 日 17:29

24g以上的mbp应该可以 16g的也勉强行（7-9b）但是跑了之后就没法自己干活了

但只能做一些简单的工作比如说总结email/写简单的python小工具什么的而且没法像gpt和gemini那样做长对话

27b这种得顶配mbp了吧（128那种？）

pikachu12138 · 2026 年4 月 22 日 17:38

我大概是m4pro 48g，我之前跑过32b的qwen但是那是前两年的事情了，那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了

主要是不太清楚新的模型到底是啥情况，我感觉如果不能一定程度上提供生产力就没必要玩了，除非能整点花活

Rosmontis · 2026 年4 月 22 日 17:46

48G的mac pro跑6bit应该没啥问题，但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。

Onvon · 2026 年4 月 22 日 17:47

主要的优势还是隐私吧

比如说很多ide的auto complete会把你的代码发到服务器上然后有些搜索服务比如perplexity会用免费用户的data做训练和广告

但这两个use case本身并不需要什么很强的算力…

工具如果写得好 9b的模型也能做出还可以的效果

Brooklyn · 2026 年4 月 22 日 17:55

本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.

皮皮虾 · 2026 年4 月 22 日 21:08

其实我觉得大部分llm从业者还挺客观的..

RATT · 2026 年4 月 22 日 21:38

啥卡跑27b模型能跟得上写码的速度

CF_Sam · 2026 年4 月 22 日 22:22

128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的，比如openclaw,直接让你感觉在和树懒交互。