也聊聊为什么AI落地难

Thickness4968 · 2026 年2 月 27 日 18:28

最近聊了不少AI startup和公司，看地里也有很多贴聊这个，新开一贴聊一聊看法。纯手打

tl;dr：AI在特定场景有用，但是不是银弹

现状：在公开知识、容易验证或者有大量训练数据的领域中，AI可以在足够的训练人力后达到90%+成功率。通过验证loop和自我迭代可以接近100%成功率。但达到100%很难，错误和幻觉非常普遍

目前落地的五个问题：

验证成本：对于一个形式化定义的问题或者是有着大量测试数据的项目（例如parse SQL语句），验证成本很低、验证的成功率很高。但现实问题很多难以验证，比如说我要做一个“视觉设计和已有网页一致”的网页页面，或者根据一个200页的自然语言spec写代码，或者控制一个外界机械臂。这三个的验证成本都很高。目前AI只适合做容易验证的东西
多步思考幻觉会串联：如果每一步AI有10%的概率出现幻觉且概率独立，那么5步之后正确率只有60%了。这意味着不能只通过增加思考深度来让AI更聪明；在投资上，这意味着更多运行时算力并不能无限外推更高正确性
生活中很多知识都是隐性的：一旦离开计算机、销售等行业，大部分行业的知识常常是隐性、只存在于口头或者现实交互、没有书面记载的。例如在法律领域，AI在帮助查找判例方面很有效，但并不擅长判断“这个陪审团的人种、工作组合应该采取什么辩护策略“。这些知识只有在长期和人打交道和实习中才能学到，了解的人也不会写下来
缺少人背锅：美国归根到底是个liability社会。人可以为自己做的事情承担责任，但AI出了问题，会让使用AI的人背锅。因此管理层现在不肯轻易给AI签字权。很多企业也采取了非常审慎的只允许AI读+有限输出，不允许AI在预期为人的渠道里发言的政策
对于训练集完全没有的知识，学习成本高：finetune只在训练集里有知识，要适应特定任务时好用。一旦要增加新的non-trivial知识，rag或者划分agent的效果都很差，容易出现context丢失等问题

总之，个人觉得以后human in the loop会是主流，在可以接受不确定性或者容易验证的领域，AI可以有不少发挥，但始终会遇到知识 + 验证成本 + 责任不清的玻璃天花板，并不会完全取代大部分人类

xixihahaha · 2026 年2 月 27 日 18:31

Defining “落地”?

其实我很疑惑到底要怎么才算落地。毕竟现在因为ai被替代的工作已经越来越多了。

Thickness4968 · 2026 年2 月 27 日 18:34

Startup 用ai做产品现金流为正，公司内部用AI实现净利润增长

xixihahaha · 2026 年2 月 27 日 18:36

那我明白了。其实我觉得你的标题可以改成，AI为什么很难真正在start up成为profitable的产品。

毕竟现在很多完全落地的项目也很难做到正的现金流。而且正的现金流在高速发展的行业更是可遇不可求

maruha · 2026 年2 月 27 日 18:36

能裁员对CEO来说就等于落地了

两只饺子 · 2026 年2 月 27 日 18:39

个人感觉幻觉还是挺严重的，但是只要人类不去review ，不去思考和验证，那么幻觉就不存在

Thickness4968 · 2026 年2 月 27 日 18:42

七八年前SaaS早期那一波很多C轮前都正了或者A-B轮都有明确计划如何赚钱这次聊的几家都还在卖的越多亏得越多阶段，边际开发成本超过了价格

llbean · 2026 年2 月 27 日 18:42

来依托：
https://gu.qq.com/resources/shy/news/detail-v2/index.html#/index?id=nesSN2026022623570297a730b8&s=b&prefer_reader_view=1&prefer_safari=1

newhope · 2026 年2 月 27 日 18:43

所以报税和审计还是要由人类来把关，欢迎来投INTU

Thickness4968 · 2026 年2 月 27 日 18:44

我这篇文章讲的就是算力再便宜也解决不了的问题

Sunshine9 · 2026 年2 月 27 日 18:45

想说有些行业的东西目前还真不能一股脑儿的就随便丢给ai
毕竟太敏感

Thickness4968 · 2026 年2 月 27 日 18:45

把代码生成当成RAG（检索增强生成）来做。

只能说这个代码太简单了

duckspeak · 2026 年2 月 27 日 18:46

AI的作用不是替代职业，而是减少工作人数。

Nokuno · 2026 年2 月 27 日 18:46

能工智人还是太多了

iamsalute · 2026 年2 月 27 日 18:48

有聊到什么有意思的startup么？最近也在聊一些，还有看一些preipo的投资机会，好奇lz的心得体会

Thickness4968 · 2026 年2 月 27 日 18:51

有意思的不少，但是仔细想了想商业模式和未来空间没一个能去的也许会有起飞的但是概率低于40%

Hypn0s · 2026 年2 月 27 日 18:53

ai替代的事 junior，而不是senior。senior指挥10个ai agent的成本比招一个junior低，是关键。

Thickness4968 · 2026 年2 月 27 日 18:54

同意，以后常态估计是l4 l5是start level。

fularji · 2026 年2 月 27 日 18:56

感觉高于10都已经算很高了

xjx · 2026 年2 月 27 日 18:56

大公司的反馈是，LLM毕竟还是一个Non-determinsitic的东西，需要一套新的系统来约束和监控这个东西的表现，这是跟以往的高度确定的业务系统冲突的一套东西，需要很多工作来保障

另一个就是成本，不仅是LLM的成本，还有数据Api的成本，这个说起来就更复杂了