最近聊了不少AI startup和公司,看地里也有很多贴聊这个,新开一贴聊一聊看法。纯手打
tl;dr:AI在特定场景有用,但是不是银弹
现状:在公开知识、容易验证或者有大量训练数据的领域中,AI可以在足够的训练人力后达到90%+成功率。通过验证loop和自我迭代可以接近100%成功率。但达到100%很难,错误和幻觉非常普遍
目前落地的五个问题:
- 验证成本:对于一个形式化定义的问题或者是有着大量测试数据的项目(例如parse SQL语句),验证成本很低、验证的成功率很高。但现实问题很多难以验证,比如说我要做一个“视觉设计和已有网页一致”的网页页面,或者根据一个200页的自然语言spec写代码,或者控制一个外界机械臂。这三个的验证成本都很高。目前AI只适合做容易验证的东西
- 多步思考幻觉会串联:如果每一步AI有10%的概率出现幻觉且概率独立,那么5步之后正确率只有60%了。这意味着不能只通过增加思考深度来让AI更聪明;在投资上,这意味着更多运行时算力并不能无限外推更高正确性
- 生活中很多知识都是隐性的:一旦离开计算机、销售等行业,大部分行业的知识常常是隐性、只存在于口头或者现实交互、没有书面记载的。例如在法律领域,AI在帮助查找判例方面很有效,但并不擅长判断“这个陪审团的人种、工作组合应该采取什么辩护策略“。这些知识只有在长期和人打交道和实习中才能学到,了解的人也不会写下来
- 缺少人背锅:美国归根到底是个liability社会。人可以为自己做的事情承担责任,但AI出了问题,会让使用AI的人背锅。因此管理层现在不肯轻易给AI签字权。很多企业也采取了非常审慎的只允许AI读+有限输出,不允许AI在预期为人的渠道里发言的政策
- 对于训练集完全没有的知识,学习成本高:finetune只在训练集里有知识,要适应特定任务时好用。一旦要增加新的non-trivial知识,rag或者划分agent的效果都很差,容易出现context丢失等问题
总之,个人觉得以后human in the loop会是主流,在可以接受不确定性或者容易验证的领域,AI可以有不少发挥,但始终会遇到知识 + 验证成本 + 责任不清的玻璃天花板,并不会完全取代大部分人类