Qwen 3.6 27B来了

因为GB10带宽其实很小,远低于M3 / M5 Ultra

DGX Spark是个带宽和Strix Halo一桌的抽象玩意,定价却非常自信。这玩意128G版本定价3000最多了,隔壁Strix Halo打价格战优势太大了。

1 个赞

那还是慢

推理速度现在真的是限制本地模型最大的瓶颈

没办法,还是那句话,有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。

没点进来前就知道会看见“蒸”字 :yaoming: 啥时候能在国产模型相关话题看不见这个字。。

ban 掉之后感觉很多人唯一能留的评论都没了

要速度只能直接用GPU了,双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下,48G显存现在也就2000出头。或者直接5090,今天3000不到,Q5可以跑到50 tps以上,缺点是显存小点。

留下了贫穷的泪水.png

后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了 :yaoming:

1 个赞

蒸蚌!

那感觉某宝整个魔改32g的4080最划算?现在才12k人刀。不知道能跑多少tps

256 bit差不多700G的带宽,理论极限是20G的active param跑到35 tps,我估计跑27b dense Q5 30 tps不到一点吧,毕竟带宽一般是用不满的,有一点overhead。n卡prefill都是很快的TTFT可以忽略。

不知道4090 48现在啥价格,这玩意带宽更强显存也够。

22-24k人刀 贵不少了

我觉得怎么搞都无所谓,只要能把token的价格打下来就行

什么,你不爽因为你是等着上市发财的A社员工啊,那没事了 :yaoming:

1 个赞

这玩意macbook pro本地跑能行吗?有点想本地整一个,效率高吗

5070ti能跑啥 :joy:

24g以上的mbp应该可以 16g的也勉强行(7-9b)但是跑了之后就没法自己干活了

但只能做一些简单的工作 比如说总结email/写简单的python小工具什么的 而且没法像gpt和gemini那样做长对话

27b这种得顶配mbp了吧(128那种?)

我大概是m4pro 48g,我之前跑过32b的qwen但是那是前两年的事情了,那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了

主要是不太清楚新的模型到底是啥情况,我感觉如果不能一定程度上提供生产力就没必要玩了,除非能整点花活

1 个赞

48G的mac pro跑6bit应该没啥问题,但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。

1 个赞

主要的优势还是隐私吧

比如说很多ide的auto complete会把你的代码发到服务器上 然后有些搜索服务比如perplexity会用免费用户的data做训练和广告

但这两个use case本身并不需要什么很强的算力…

工具如果写得好 9b的模型也能做出还可以的效果

2 个赞

本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.

其实我觉得大部分llm从业者还挺客观的..

啥卡跑27b模型能跟得上写码的速度

1 个赞

128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的,比如openclaw,直接让你感觉在和树懒交互。