这两天美股AI半导体板块大跌跟Deepseek新开源FlashMLA绕开CUDA限制有关

【转】

Deepseek开源FlashMLA的意义。

Deepseek本周密集开源多项技术,第一天开源了FlashMLA,目前已经引起轰动,引起轰动的主要原因是把H800卡的性能做到英伟达官方给出的2-3倍,而一般来说H100的性能是H800的2倍,也就是说用H800干出了H100的性能。前一段时间Scale AI的创始人亚历山大·王(华裔)说Deepseek搞到了5万张H100卡才训练出Deepseek R1等,可以说他并不清楚Deepseek的具体工作才得出那样的结论。目前Deepseek开源了FlashMLA,可以说在一定程度上回答了亚历山大·王的疑问。

开源FlashMLA的意义非常重大,首先是相当于国内目前采购的H800的算力普遍提高2-3倍,相当于拿H800当H100用,这对未来的人工智能的发展和普及有很大的意义。
其次,开源FlashMLA后,相关技术也可以用在国产芯片上,有文章提到“当前国产GPU(如壁仞、摩尔线程)正试图兼容CUDA生态,但缺乏深度优化案例。FlashMLA的开源为国产GPU厂商提供了参考模板:若能针对国产芯片实现类似优化,或可打破英伟达的生态壁垒。”如果这个文章中提到的技术用在国产GPU上的说法是对的,那么可以预料国产芯片将会获得更大的发展空间,国产算力的实际发挥也能大大增强。
FlashMLA在大量释放GPU性能后,也会降低部署大模型部署成本,进而进一步推动大模型在各行各业的应用,进一步激发出更多创新应用的出现。
考虑到国内大量的工程人员,国内齐全的工业体系,大模型在各行各业的应用必然是加快的,这将使得中国在人工智能发展方面和美国竞争中出现你打你的,我打我的局面,而且“我打我的”涉及到点比“你打你的”更广,这会形成更多差异化竞争,美国所谓卡算力来影响中国人工智能的发展思路基本落空,而在各行各业竞争人工智能方面美国可能会落后于国内。

联想到几天前上海的GDC上Deepseek参与的闭门会议,再早是民营企业家会议,那么开源释放GPU的能力有可能是这些会议的结果,这个开源促进的发展能力在后续是有很大的意义的,以前认为部署Deepseek可能是亏本的生意有可能会赚钱,可以说:人工智能发展竞争已经进入新的阶段。

期待Deepseek后续开源能够带来更多惊喜

1 个赞

有何发财机会?要不快点学习这个,以后取代了CUDA不就能在就业市场乱杀了

这玩意又不是代替cuda 只是一个mla decoding kernel的优化 本身就依赖cuda
这个flashMLA专门针对hopper的架构去优化这一方面的性能,怎么能说是讲算力提高2-3倍?什么叫相关技术用到国产芯片上?
别转载这种墙内的意淫文章了,着实没啥意思。泥潭理财版的帖子现在质量是越来越差,跌了就开始东大咸鱼翻身,涨了就开始all in NVDA,如同精神分裂一般鸡飞狗跳,弱智程度堪比wsb

27 个赞

当然不是代替CUDA,绕开CUDA限制就够了。文章内容没问题。简单来说就是买便宜的NVDA H800就够了,用flashMLA来优化训练,不用买贵的。其他厂商也可以通过flashMLA来兼容CUDA,实现一样训练效果,但硬件成本低很多。

你到底在说什么

这句话就是臆想,无法在被公开审计的资料中发现

什么叫cuda限制?大家只能用cuda的限制,还是算力的限制?一个为单一架构,单一kernel专门设计的优化到底绕过了什么东西?

1 个赞

看标题识id系列

楼主的帖子主要分成两类:

  1. 东大赢
  2. 算卦,东大赢,西大崩

你到底在说什么,你看过FlashMLA的GitHub repo吗

Achieving up to 3000 GB/s in memory-bound configuration and 580 TFLOPS in computation-bound configuration on H800 SXM5, using CUDA 12.8.

这是推理优化,和训练无关。当然不排除后两天开源训练优化。

这才是真正的OPENAI

1 个赞