老黄贡了多少又
热潮过去了,上个月消息二手H100已经没人要了,都在清仓。说句难听的,有一个DS就够了。
H20带宽和H100一样,算力远不如H100,应该算是推理卡吧
国内AI需求都在训练,商业上的推理卡又不是英伟达一家,感觉意义不大
@h100 太惨了
美国也不只有一个ChatGPT啊,国内AI市场怎么可能一个DS就占满了。。。
这种一般是国内同等水平的突破了,所以禁运没有意义了,反而放开倾销才是对的
因为是政策导向的市场。抛开事实不谈,假设还有投资人有意愿继续投有希望成为未来DS的公司,他们只要问一个问题,就能把天聊死:你和DS比有哪些优势?
tête-à-tête
又学到新词汇了,开心!
东大已经把H20移除出了最新的数据中心采购标准,当然理由是不符合能耗要求
这卡现在最尴尬的是拿来推理 DeepSeek-V2 及以后的形状的模型并不好用。
那么问题来了,字节大买特买是因为他们自己搞了至少 decode 在 H20 上跑很开心的模型。别人为什么要买呢 又已知字节的卡已经多到 _______ 张了,真的还打算继续吃 H20 吗
直接原因是deepseek公开了如何把H20 解锁性能当H100用的方法,一下子就很有性价比了
That’s wrong.
是我表达不准确,准确表达是DeepSeek适配H20做得比较好,做推理的性价比大幅提升
还。以。为。是轰20
以后除了强迫中国买美国石油大豆之外还要强迫买显卡
这个 kernel 在 H20 上的确能跑满,但是说 DeepSeek 适配 H20 好还是不对。
DS 自始至终都是对着 H800 做的。MLA 这个思路也是针对 decode 的时候大卡的显存带宽比算力先到瓶颈做的,拿更多的计算换 decode 的时候可以吃更少的显存带宽。H20 在显存带宽不变(还略有提升,如果是 HBM3e 的版本还提升不少)的情况下计算砍到只有五分之一了,直接反转了,在 batch size 并不大的情况下就 compute-bound。实际能力是 H800(H100 在这里等同)的四分之一到三分之一期间。售价又没有五分之一,拿来跑 DS-V3/R1 性价比就挺烂的。在这个 case 下比烂泥扶不上墙的华为都不如……
DS 还是拉动了一批散户对 H20 的需求,是因为 Ampere 不支持 fp8,优化都是照着 Hopper 做的,H100/H800 又买不到,只能硬着头皮吃 H20 的屎。加上很多“搭建”、“接入”的都是一体机做面子工程的,有就行了,没人在乎上量以后的性价比。
怎么感觉跟进了旅游诈骗景区一样,不买就搞你的感觉
就是针对中小客户小规模本地部署(不搞集群)的需求, H20的卖点始终是高显存,然后相对低价。比如看这个广告就知道了:
kissed his ass