有玩贴吧的吗?
这个不是偷不偷的问题,乳化了吧 ![]()
1 个赞
training dataset 明显是用外网的
Neural network 估计是自己训练的,但训练用的图估计也没有拿授权,商用可能有版权问题
1 个赞
8,9成是pull了一个开源的github项目,然后加上的翻译软件,他要是给出reference就不算偷,只是技术就这样
企业级翻译软件
百度其实发了 arxiv preprint,用的是 LAION datasets
现在产品大概跟论文差不多
1 个赞
所以现在在用贴吧当训练集吗
1 个赞
产品中用了什么 data 要百度才知道
但估计主体还是 LAION datasets,商用有版权问题
LLM 届house
