mythos 大概有多少参数? 什么架构?

tomandjerry · 2026 年6 月 13 日 22:57

泥潭人才多，肯定有不少人在a/ oai，或者在相关的云服务商工作，肯定有人知道这模型有多大，是不是moe，能不能来大概透露一下? 给个数量级? 实在是太好奇了，这模型勾引的我神魂颠倒，吃饭睡觉拉屎都想着它。

参数范围

0 投票人

0 投票人

karn · 2026 年6 月 13 日 23:00

120层，200B，3T 左右。

tomandjerry · 2026 年6 月 13 日 23:02

谢谢，比我幻想中的还大一些

greenwhite · 2026 年6 月 13 日 23:05

这俩单位是啥？

收束观测者 · 2026 年6 月 13 日 23:17

3T感觉比预期的小很多

Rosmontis · 2026 年6 月 13 日 23:18

百分之百MOE，不可能小于2T，按照release的gap来看大概5-10T。

LPL · 2026 年6 月 13 日 23:19

moe？3T parameters, 200B activate

收束观测者 · 2026 年6 月 13 日 23:21

这个没法看的……你不知道他家内部各个项目GPU allocation怎么分配的

而且训前沿模型到哪儿了卡住爬不动了没有改进是很常见的

tomandjerry · 2026 年6 月 13 日 23:23

哪怕是moe也不会搞太大吧，增益小，开销大。性价比太低。

我感觉也就1，2T

rollingcat · 2026 年6 月 13 日 23:27

我外行，好奇一下楼主现在知道参数数量之后

又能想什么别的了吗

tomandjerry · 2026 年6 月 13 日 23:29

这么多人，就你关心我

收束观测者 · 2026 年6 月 13 日 23:36

GPT-5.5有人用long context eval倒推出来说是10T

10T不一定有但是肯定不止2T

az8 · 2026 年6 月 13 日 23:38

是不是可以说？全人类的迄今为止的所有知识5个T就够了？50个T够不？

sheepyyyy · 2026 年6 月 14 日 01:31

Fable被放到种子站了，虽然感觉像是假的（

braket · 2026 年6 月 14 日 01:55

要是真的那anthropic还值1T吗

tomandjerry · 2026 年6 月 14 日 02:01

是真的，我下载了，很好用