之前已经有不少讨论在公司内tokenmaxxing如何找用途的帖子(1 2),昨天看到这个帖子,在个人生活/学习途中也tokenmaxxing,有感而发,想分享一下我被tokenmaxxing催生的新需求:auditing。
众所周知,code review是很累的,即使是开源软件也不见得有很多双眼睛盯着,可能黑帽比白帽多;闭源软件就更不用说了,肯定有一直没修的陈年酿造bug,而且不管是大企业还是不知名小作者都可能留后门。以前我在电脑和手机上装软件也都比较懒惰,确认是reproducible build的就拉倒。最近有篇论文说AI code review做的比人好,我觉得这个结论本身不见得靠谱,但是侧重点不同,AI牛马不喊累,多加班肯定是好的。
故事源于两年前的这个时候,有人质疑泥潭某插件,为了公众利益我手动audit了它的代码;代码是obfuscate编译压缩后的,当时还没有coding agent只有chatbox,我手动deobfuscate然后肉眼+AI结合着看完非常累。这个插件后来不再更新了,我有一天想安装它的继任者,于是又开始audit(虽然我也挺相信各位作者潭友,但我自用的插件还是得routinely的audit一下,毕竟涉及金融)。这次就比较偷懒了,直接丢给agent让他反编译、拆分功能,着重分析所有网络请求,给我出一份报告着重讲我想检查的部分。很快报告就回来了,我也愉快的装上了插件。以前我在论坛看到有人分享userscript我都要顺手读一下看看没有恶意投毒,但是这种大插件我是懒得看的,现在tokenmaxxing了都可以看了。
某次跟着潭友买手机也是,要用毛子来路不明软件尝试解锁。我一开始也懒得分析这软件到底干了啥,丢进虚拟机里拉倒,但是软件不work,解锁失败。我想知道为啥,顺便深入学习一下毛子神奇的解锁黑科技;于是又开始让agent反编译、让AI帮我搞清楚具体的功能逻辑,然后才能我来分析到底为啥不work。当然,结论有点令人失望,那软件真的啥都没干,是T家上游服务器有bug,后来bug被封死了。
今天看到有个核心开源GUI闭源的方便本地跑模型推理框架的工具,GitHub上只放了图文并茂的README和二进制,但是官网又写download from GitHub有点误导消费者的感觉,而且只有一个作者。可能是他想方便以后盈利吧?换成往常我就不敢用了,乖乖自己手动跑mlx/hf库加载模型(一人作者的软件起码得像openwhispr这样开源+收费我才敢用)。但是tokenmaxxing!我决定audit一下,没问题的话也是可以用的。于是打开agent简单说了一下任务让它开工了。事实证明这个作者没什么心眼,程序没混淆(可能也是vibe出一个能跑通的就直接上架了),里面就是一个electron壳套html前端、一套打包好的开源核心。接下来让AI审一下所有的网络和文件读取部分,没找到什么异常,我也就决定可以用用看了。
一来二去养成了习惯,所有我不太相信的软件都tokenmaxxing分析一下再用,反正token越来越多、模型也越来越懂了。模型基本不会拒绝不涉及挖洞的security audit的请求(只要别用那个发“你好”就封号的公司的模型就行)。
tokenmaxxing打开的新世界是让我可以随时分析我刚下载的软件/刚打开的网页,有没有明显的后门;虽然拦不住隐藏的很深的后门,但能挡掉一些拙劣的尝试也够了。以前只看开源的软件、自己大致看几眼关键部分的代码,以后闭源的也可以audit、全面分析无死角不遗漏。当然,AI对大项目(比如各位潭友刚白嫖上车的Adobe全家桶)有心无力,但对一人作者写的小项目足够了。
至于具体如何执行,每个人都有自己的偏好和侧重点,我觉得大家写各自看重的方向更好,这样agent进行audit的思路也更diverse。如果没有相关背景可以搜几个skill装上。
最后,感谢amex赞助的用不完的token。没有amex的泥潭地铁蟋蟀选手也可以搞点开源模型配额,参见 一些白嫖获取LLM API的路子, 可用于OpenClaw