mythos 大概有多少参数? 什么架构?

泥潭人才多,肯定有不少人在a/ oai,或者在相关的云服务商工作,肯定有人知道这模型有多大,是不是moe,能不能来大概透露一下? 给个数量级? 实在是太好奇了,这模型勾引的我神魂颠倒,吃饭睡觉拉屎都想着它。

参数范围

  • 不说
  • < 500B
  • < 1T
  • < 2T
  • < 5T
  • 10T
  • \infty
  • 不知
0 投票人
  • moe
  • dense
  • 不说
0 投票人

120层,200B,3T 左右。

7 个赞

谢谢,比我幻想中的还大一些 :heart:

这俩单位是啥?

3T感觉比预期的小很多

百分之百MOE,不可能小于2T,按照release的gap来看大概5-10T。

moe?3T parameters, 200B activate

1 个赞

这个没法看的……你不知道他家内部各个项目GPU allocation怎么分配的

而且训前沿模型到哪儿了卡住爬不动了没有改进是很常见的

2 个赞

哪怕是moe也不会搞太大吧,增益小,开销大。性价比太低。

我感觉也就1,2T

我外行,好奇一下楼主现在知道参数数量之后

又能想什么别的了吗 :yaoming:

1 个赞

这么多人,就你关心我 :smiling_face_with_three_hearts:

1 个赞

GPT-5.5有人用long context eval倒推出来说是10T

10T不一定有但是肯定不止2T

是不是可以说?全人类的迄今为止的所有知识5个T就够了?50个T够不?

Fable被放到种子站了,虽然感觉像是假的(

https://x.com/PtrPomorski/status/2065743732792512621

要是真的那anthropic还值1T吗

是真的,我下载了,很好用