有人关注google新出的推理TPU么
其实H20如果打算卖到全球的话也会很抢手的,本地小规模部署DeepSeek 应用场景的需求现在非常大。但NVDA不打算这样做,其它市场的用户没得选,只能买价格贵的多的H100, H200, B200
就是说这种没意义。这种八卡 H20 哪怕在短输入 (128, R1 自己转一会儿就多少 token 了?) 加 batch size 直到满载的情况下单机吞吐也就几百 token/s 的 decode throughput。按 600 token/s 算,全天 24 小时一刻不停的满载跑(实际显然不可能),总共输出 51.84M token。按 DeepSeek (及其他国内云厂商)官方售价计算,价值 829.44 元人民币。一台八卡 H20 的机器按 1M 人民币计算,需要全天二十四小时一刻不停的满载 3.3 年才能收回硬件成本。这算的还是机器成本,不是 TCO,不含电费和其他维护。
DS V3/R1 的效率,是建立在 Hopper 大卡 + 大集群的基础上的。这些私有化部署的方案就是纯粹的浪费资源的面子工程。
nv是不是要破產了 樓上說h20 h100都沒人要了 爛大街
bb 的5090什麼時候能隨便買
云厂商用 H20,虽然算力受限,但是有足够多用户,可以组大集群,把 EP 搞大,可以弄到平均下来每卡四百多 token/s左右(应该还有优化空间,不知道国内的朋友们最近玩的怎么样了),相比上面的每 8 卡 600 左右是五六倍的优势,至少不是纯搞笑的。H100/H800 等大卡则是在这个基础上再高3x-4x。
中小客户的预算就1M RMB以内,算力需求一般也就这么多,但一样的有隐私方面的考量和能自己优化大模型的需求。这就是应用场景。
拿这 1M 去买 API 也好啊。在数量级差距下这样的方案哪里合算了。
至于“自己优化大模型”,买这种玩意的厂没有任何能把 DS V3 这种 MoE 的继续训练跑起来的,还是得了吧。隐私这没办法,但是有一种因为接入电网要登记身份信息怕自己每月用电规律的隐私暴露而不入网在自己家装柴油发电机的美,本质上也是在哄人开心。
老黄贡少了
没毛病,确实是没有“export ban”,而只是"require license"
100万只买来了一周不到的消停
蓝老黄可可是连皮夹克都特意换了西装去的海湖
翻译:不仅以前的订单要补交保护费,以后也别想卖了