$2000攒机在家跑DeepSeek-R1-671B

1 个赞

满血的R1需要8张H100吧,$2000感觉不太可能

可以在cpu上跑

一秒一个token你受的了吗,实际使用意义不大

所以现在硬件的技术瓶颈在于 如何同步控制高容量和高频率的内存?

256gb的显存设备价格是256gb内存的nnnn倍
区别就是显存与gpu的通信速度远高于内存与cpu的通信速度。
单卡控制超过40gb显存的设备的都是天价
但是民用cpu随便控制128gb内存

Inference是带宽瓶颈而不是计算瓶颈,推上HuggingFace的工程师用$6000美元实操。

  • 主板: ◦Gigabyte MZ73-LM0或MZ73-LM1(支持2个EPYC插槽,用于24通道DDR5 RAM)

  • CPU: ◦2x AMD EPYC 9004或9005系列CPU(例如,EPYC 9115或9015以节省成本,关注内存带宽而非顶级性能)

  • RAM: ◦768GB DDR5-RDIMM跨24个RAM通道(24 x 32GB DDR5-RDIMM模块)

$2000可能只能在二手市场上看看

1 个赞

非满血,但最便宜跑 671B 的方式大概是通过 unsloth 的 1.58-bit “动态”量化

https://unsloth.ai/blog/deepseekr1-dynamic

1.58-bit 的意思是大多数层 1.5-bit 但某些层只量化到 4-bit。直接全部 1.5-bit 就会开始智障:

Set up the Pygame’s Pygame display with a Pygame’s Pygame’s Pygame’s Pygame’s Pygame’s Pygame’s Pygame’s Pygame’s Pygame’s

速度的话,2x H100 可以跑到 14 tokens/s,多人使用总吞吐量 140 tokens/sec :yaoming:

3 个赞

直接农企12channel的epyc ddr5-6000就好了 基本可以到8-10t/s 带宽是576G per socket接近mac m4 max的速度 这是最便宜跑超级大模型的办法

这个2k本身也是降智的 跑fp8吧起码

1 个赞

以本地跑模型为需求的话可以试试tesla p40或者魔改2080ti 22g,推理主要吃显存容量显存带宽,是不是gpu很重要,gpu性能倒是其次
cpu跑不太动。以mac为例,实测gpu的推理速度是cpu的十倍以上

4090+96gbram(48x2) 目前跑70b也就是 2-3t/s
不想试671b了

关键AMD插4条内存很难过自检。

主要是延迟问题,延迟高了让高频显得非常小丑;电气特性决定了越高频内存越依赖HBM片上内存

主要是带宽 你不是12channel高带宽的epyc 并且跑ddr5内存的话 根本没啥用 你堆800G内存也没用

你最少要8channel的 threadripper pro才可以 但是也就8channel 他那个24channel

哈哈 不敢想 800g需要20张p40 再便宜也不便宜 而且你想想要几台机器才能连这20张卡? 你一机器连4张或者8张 你机器间速度怎么保证? 这个是最不合理的做法了