拥抱黑盒:一个研究者 All in AI 的实录与反思【更新:附录增加了写作过程】

打个广告 最近在做的项目skillsbenchhttps://x.com/xdotli/status/2024036770816684081?s=46 量化skills对不同harness的影响 感兴趣可以参与task/skills design

我咋觉得是有好的/原创性想法更重要啦,差距反而会进一步拉大 :yaoming:

即便 AI 不再取得任何进展 ,只要算力成本持续下降,现有技术就已经具备了替代多数白领认知工作的能力。现在阻止多数人被替代的理由仅仅是惯性。任何领域一旦用 AI 提升了生产力的公司开始碾压依赖惯性的公司,那这个领域会被改写。给人的时间不多了。

:face_exhaling:

1 个赞

学到了真东西,感谢OP

简单分享一下。首先,生活中绝大部分活动是重复性的,不是创造性的。比如写歌的很少,而唱歌的很多。然后,究竟什么是创造力?比如写歌,你认为是无中生有创造出来的吗?其实不是,无论多新多好听的歌,原来就在那里了,只是被拣选出来,因为都是音符的排列组合之一。当然这个拣选过程并不容易,因为排列组合的search space巨大。那些所谓的音乐天才,具有一种天赐的甄别拣选评估能力。而这种能力,可以被计算机/AI以算力算法模拟并超越。

2 个赞

太厉害了!

能转载吗

我现在也是类似的思维
有一个agent负责写bash script,py和ts代码做自动化
一个基于opus的负责指挥
一个sonnet/gpt5负责执行各种需要llm推理和research工作

不需要给如何干一件事的具体skill 只需要给mcp就行

学习了,谢谢分享

支持许教授

作为一个 coding 小白的科研工作者,最近用 Claude Code vibe coding 了一整套工具——文中提到的 RAG、知识库管理、邮件分拣等等——基本搭出了自己的 digital twin,到现在还处于震惊当中。楼主的想法简直不能再同意更多。

写代码有编译器和测试兜底,对错一目了然;但科研中大量的任务是发散性的——文献综述、方案设计、实验规划——没有明确的 pass/fail 信号。这类任务怎么建立反馈闭环,是我一直在摸索的问题。目前的体会是:把大的模糊任务拆成一串可验证的小步骤,尽量让每一步都有 ground truth 可以锚定,本质上就是在给 AI 制造"编译器"。

特别共鸣的是关于"拥抱黑盒"的讨论。用下来越来越觉得,能不能用好 AI 的关键就是一句话:解放思想,把低级的脏活累活外包出去,人完全 focus 在高层的架构和创意思考上。 反而是这个过程让我更坚定了人类在系统中不可替代的角色——AI 越强,越需要人来定义问题、判断方向、把握品味。也许有一天 AI 能独立产生真正原创的洞见,但至少现在,它是一个无比强大的杠杆,而支点仍然是人。

这过去一个月,我从 AI skeptic 变成了 believer。但也正因为深度使用,反而更确信一件事:在目前没有根本性技术突破的前提下——也就是说 AI 只是做得更快更聪明,但还无法做真正启发性的原创思考——人反而比以前更重要了。当然,这个"无法"也许只是时间问题。

21 个赞

赞 zszszs

有没有tldr

其实肯定白领是不如ai工作的,ai难以替代的还是蓝领工作,最近搬家看搬家师傅一系列的拆家具然后搬家具,各种不同的家具啊,转角啊拆一部分留一部分啊,真的是感慨人类真便宜,干活完了吃饭睡觉就行了,换机器人那就废了贵死

再也要生娃养娃,带婴儿这种工作ai机器人也完全没法干,这些方面希望有很大技术突破吧,要不然人类闲不下来

2 个赞

有同感。顺便义务打个广告:MSRI正在招募各个领域的专家(教授、博后、高年级phd学生)参与明年春天的AxIOM program,旨在用AI在最前沿的数学取得突破。详见:

2 个赞

AI心想:只要没有人类了不就迎刃而解了 :yaoming:

物理层面的智能远远不足,没有物理现实层面的智能没有足够意义啊,管他是人类还是恐龙都一样,ai怎么发展都到不了一级文明,没有足够的能量也就没法继续发展

tldr: 都是干货

已经写得很精简了,信息密度太高

@Grok 总结一下

1 个赞

让gemini给你总结下 :yaoming:

1 个赞