也聊聊为什么AI落地难

最近聊了不少AI startup和公司,看地里也有很多贴聊这个,新开一贴聊一聊看法。纯手打

tl;dr:AI在特定场景有用,但是不是银弹

现状:在公开知识、容易验证或者有大量训练数据的领域中,AI可以在足够的训练人力后达到90%+成功率。通过验证loop和自我迭代可以接近100%成功率。但达到100%很难,错误和幻觉非常普遍

目前落地的五个问题:

  1. 验证成本:对于一个形式化定义的问题或者是有着大量测试数据的项目(例如parse SQL语句),验证成本很低、验证的成功率很高。但现实问题很多难以验证,比如说我要做一个“视觉设计和已有网页一致”的网页页面,或者根据一个200页的自然语言spec写代码,或者控制一个外界机械臂。这三个的验证成本都很高。目前AI只适合做容易验证的东西
  2. 多步思考幻觉会串联:如果每一步AI有10%的概率出现幻觉且概率独立,那么5步之后正确率只有60%了。这意味着不能只通过增加思考深度来让AI更聪明;在投资上,这意味着更多运行时算力并不能无限外推更高正确性
  3. 生活中很多知识都是隐性的:一旦离开计算机、销售等行业,大部分行业的知识常常是隐性、只存在于口头或者现实交互、没有书面记载的。例如在法律领域,AI在帮助查找判例方面很有效,但并不擅长判断“这个陪审团的人种、工作组合应该采取什么辩护策略“。这些知识只有在长期和人打交道和实习中才能学到,了解的人也不会写下来
  4. 缺少人背锅:美国归根到底是个liability社会。人可以为自己做的事情承担责任,但AI出了问题,会让使用AI的人背锅。因此管理层现在不肯轻易给AI签字权。很多企业也采取了非常审慎的只允许AI读+有限输出,不允许AI在预期为人的渠道里发言的政策
  5. 对于训练集完全没有的知识,学习成本高:finetune只在训练集里有知识,要适应特定任务时好用。一旦要增加新的non-trivial知识,rag或者划分agent的效果都很差,容易出现context丢失等问题

总之,个人觉得以后human in the loop会是主流,在可以接受不确定性或者容易验证的领域,AI可以有不少发挥,但始终会遇到知识 + 验证成本 + 责任不清的玻璃天花板,并不会完全取代大部分人类

48 个赞

Defining “落地”?

其实我很疑惑到底要怎么才算落地。毕竟现在因为ai被替代的工作已经越来越多了。

9 个赞

Startup 用ai做产品现金流为正,公司内部用AI实现净利润增长

3 个赞

那我明白了。其实我觉得你的标题可以改成,AI为什么很难真正在start up成为profitable的产品。

毕竟现在很多完全落地的项目也很难做到正的现金流。而且正的现金流在高速发展的行业更是可遇不可求

5 个赞

能裁员对CEO来说就等于落地了

21 个赞

个人感觉幻觉还是挺严重的,但是只要人类不去review ,不去思考和验证,那么幻觉就不存在

14 个赞

七八年前SaaS早期那一波很多C轮前都正了或者A-B轮都有明确计划如何赚钱 :yaoming: 这次聊的几家都还在卖的越多亏得越多阶段,边际开发成本超过了价格

3 个赞

来依托:
https://gu.qq.com/resources/shy/news/detail-v2/index.html#/index?id=nesSN2026022623570297a730b8&s=b&prefer_reader_view=1&prefer_safari=1

所以报税和审计还是要由人类来把关,欢迎来投INTU :yaoming:

我这篇文章讲的就是算力再便宜也解决不了的问题

9 个赞

想说 有些行业的东西 目前还真不能一股脑儿的就随便丢给ai
毕竟 太敏感

4 个赞

把代码生成当成RAG(检索增强生成)来做。

只能说这个代码太简单了 :yaoming:

1 个赞

AI的作用不是替代职业,而是减少工作人数。

9 个赞

能工智人还是太多了

11 个赞

有聊到什么有意思的startup么?最近也在聊一些,还有看一些preipo的投资机会,好奇lz的心得体会

有意思的不少,但是仔细想了想商业模式和未来空间没一个能去的 :yaoming: 也许会有起飞的但是概率低于40%

ai替代的事 junior,而不是senior。senior指挥10个ai agent的成本比招一个junior低,是关键。

14 个赞

同意,以后常态估计是l4 l5是start level。

2 个赞

感觉高于10都已经算很高了

3 个赞

大公司的反馈是,LLM毕竟还是一个Non-determinsitic的东西,需要一套新的系统来约束和监控这个东西的表现,这是跟以往的高度确定的业务系统冲突的一套东西,需要很多工作来保障

另一个就是成本,不仅是LLM的成本,还有数据Api的成本,这个说起来就更复杂了

2 个赞