泥潭人才多,肯定有不少人在a/ oai,或者在相关的云服务商工作,肯定有人知道这模型有多大,是不是moe,能不能来大概透露一下? 给个数量级? 实在是太好奇了,这模型勾引的我神魂颠倒,吃饭睡觉拉屎都想着它。
参数范围
- 不说
- < 500B
- < 1T
- < 2T
- < 5T
- 10T
- \infty
- 不知
0
投票人
- moe
- dense
- 不说
0
投票人
泥潭人才多,肯定有不少人在a/ oai,或者在相关的云服务商工作,肯定有人知道这模型有多大,是不是moe,能不能来大概透露一下? 给个数量级? 实在是太好奇了,这模型勾引的我神魂颠倒,吃饭睡觉拉屎都想着它。
参数范围
120层,200B,3T 左右。
谢谢,比我幻想中的还大一些 ![]()
这俩单位是啥?
3T感觉比预期的小很多
百分之百MOE,不可能小于2T,按照release的gap来看大概5-10T。
moe?3T parameters, 200B activate
这个没法看的……你不知道他家内部各个项目GPU allocation怎么分配的
而且训前沿模型到哪儿了卡住爬不动了没有改进是很常见的
哪怕是moe也不会搞太大吧,增益小,开销大。性价比太低。
我感觉也就1,2T
我外行,好奇一下楼主现在知道参数数量之后
又能想什么别的了吗 ![]()
这么多人,就你关心我 ![]()
GPT-5.5有人用long context eval倒推出来说是10T
10T不一定有但是肯定不止2T
是不是可以说?全人类的迄今为止的所有知识5个T就够了?50个T够不?
Fable被放到种子站了,虽然感觉像是假的(
要是真的那anthropic还值1T吗
是真的,我下载了,很好用