因为GB10带宽其实很小,远低于M3 / M5 Ultra
DGX Spark是个带宽和Strix Halo一桌的抽象玩意,定价却非常自信。这玩意128G版本定价3000最多了,隔壁Strix Halo打价格战优势太大了。
因为GB10带宽其实很小,远低于M3 / M5 Ultra
DGX Spark是个带宽和Strix Halo一桌的抽象玩意,定价却非常自信。这玩意128G版本定价3000最多了,隔壁Strix Halo打价格战优势太大了。
那还是慢
推理速度现在真的是限制本地模型最大的瓶颈
没办法,还是那句话,有钱就上Pro 6000组个小集群了。现在玩这玩意还是属于奢侈品。
没点进来前就知道会看见“蒸”字
啥时候能在国产模型相关话题看不见这个字。。
ban 掉之后感觉很多人唯一能留的评论都没了
要速度只能直接用GPU了,双3090跑27b Q4 dense我记得40 tps出头在0上下文的场景下,48G显存现在也就2000出头。或者直接5090,今天3000不到,Q5可以跑到50 tps以上,缺点是显存小点。
留下了贫穷的泪水.png
后来一想要是股票里亏的钱拿来买显卡现在早组起四卡6000 pro了 ![]()
蒸蚌!
那感觉某宝整个魔改32g的4080最划算?现在才12k人刀。不知道能跑多少tps
256 bit差不多700G的带宽,理论极限是20G的active param跑到35 tps,我估计跑27b dense Q5 30 tps不到一点吧,毕竟带宽一般是用不满的,有一点overhead。n卡prefill都是很快的TTFT可以忽略。
不知道4090 48现在啥价格,这玩意带宽更强显存也够。
22-24k人刀 贵不少了
我觉得怎么搞都无所谓,只要能把token的价格打下来就行
什么,你不爽因为你是等着上市发财的A社员工啊,那没事了 ![]()
这玩意macbook pro本地跑能行吗?有点想本地整一个,效率高吗
5070ti能跑啥 ![]()
24g以上的mbp应该可以 16g的也勉强行(7-9b)但是跑了之后就没法自己干活了
但只能做一些简单的工作 比如说总结email/写简单的python小工具什么的 而且没法像gpt和gemini那样做长对话
27b这种得顶配mbp了吧(128那种?)
我大概是m4pro 48g,我之前跑过32b的qwen但是那是前两年的事情了,那个时候qwen还有点唐。70b的话就没办法推理了内存直接爆掉了
主要是不太清楚新的模型到底是啥情况,我感觉如果不能一定程度上提供生产力就没必要玩了,除非能整点花活
48G的mac pro跑6bit应该没啥问题,但日常用感觉还是得跑4bit的。不管怎么样上下文估计比较感人。
主要的优势还是隐私吧
比如说很多ide的auto complete会把你的代码发到服务器上 然后有些搜索服务比如perplexity会用免费用户的data做训练和广告
但这两个use case本身并不需要什么很强的算力…
工具如果写得好 9b的模型也能做出还可以的效果
本地serving也得prefill啊, prefill吃算力decode吃内存带宽是没错的. dgx spark那个垃圾内存带宽你跑一下就知道体验咋样了, 内存带宽瓶颈非常严重. ultra反过来, prefill阶段算力瓶颈. 这两个对比感觉ultra还是比dgx好一些的. 当然了, 本地爽用还得是RTX 6000 pro, 或者等M5 ultra.
其实我觉得大部分llm从业者还挺客观的..
啥卡跑27b模型能跟得上写码的速度
128 gb的Strix halo能跑qwen 3.5 122b的模型但速度感人。接入对token消耗比较大的,比如openclaw,直接让你感觉在和树懒交互。