链接:
吼蛙 https://hoah.app/
是干什么的:
- 以下流程一键完成:
-
- 第一步本地语音 → 文字。
- 第二步API call 把文字 → AI 润色 / 后处理。
- 处理过的文字自动进当前的输入框和剪贴板。本地保存录音和转写的历史记录。
-
简而言之就是把 ChatGPT / Cursor 的语音输入体验提升,并且带到所有的文字输入框中。
-
- 新增了如下流程(语音无关版:
- 第一步选中文字
- 第二步应用快捷键触发不同的 AI Action, 比如 润色,语法,翻译等
- 第三步自动替换掉选中的文字
为什么要自己做(vibe) 一个:
- 很多同类产品需要付费,看广告,或者收集数据。我觉得这个功能不值得付费,我需要一个自备 apikey 的免费,干净的版本。
- 开源干净的项目,比如著名的 https://handy.computer/ 不能实现 API 后处理这一步。我说话比较磕吧,原始的转录文字很难直接用,需要LLM进行后处理。而且我对语法也不是很注意,需要LLM自动纠正语法。
- 目前没找到任何项目默认就是多语言混合语音转写。虽然底层都是用whisper的变种,模型能理解多语言混合输入,但是输出往往被统一成单一的语言。上面流行的 handy 就是。
- 预设了一些 LLM 后处理的 prompts ,也支持你微调和新增自己的 prompts 。比如翻译模式可以让你翻译去到任何语言,比如Hindi,
,Klingon等。我现在Slack 和讲 Hindi 的同事发 Hindi, 和讲 Telugu的发Telugu。 - 因为彻底的干净,所以也可以安装在工作电脑上。如果不开启AI后处理,就和一个计算器没有区别。针对特定的公司,目前为
和
家都专门做了bedrock和gemini的支持。
我发现暂时没有人 vibe 一个对非拉丁语族友好,免费,干净,而且还有AI后处理的项目,于是决定vibe 一个。我后面意外的发现翻译功能其实非常实用,有兴趣的可以体验一下。
我自己的观察是,我的朋友们本来就有这个需求的用了就很沉迷,没有这个需求的就不理解为什么要 speech to text.
我的一些使用场景:
- 一遍泡澡一边嘴炮vibe coding
- 使用高情商模式嘴炮处理ticket 把骂他们SB变成LP拉满的回复
- 偷偷翻译讲小语种的同事的悄悄话
- 新年给同事发ta的母语祝福
其他 Q & A
- 为什么多此一举搞语音转文字?打字不是更快。
- Mac上的语音输入事实上提升了大脑的 output rate。你在切换视图甚至玩手机的时候都不影响你张嘴说进行输出。纯打字的话,你的输出会经常性的被迫中断(比如切换网页)。
- 为什么需要一个app专心只做这一件事?
- 因为每个app(比如vscode, cursor, antigravitiy) 都搞一个自己的听写下载一遍模型,我觉得完全不合理。而且很多都不会照顾到非母语者的体验。考虑到 App 的体积,一般也不会给你用满血的 whisper。
- API KEY 也要钱啊
- 因为只做文字后处理,所以token消耗很少。高强度也用不了一两分钱每天。
- 白嫖一个GROQ或者Cerebras的 API KEY,每个月的免费额度足够日常使用了。
比主要竞品独特的地方:
- Typeless https://www.typeless.com/
- 收费产品一票否决,无法用于工作电脑。GPT才20刀一个月,凭什么12刀一个月。
- 主要服务于英文玩家,不是默认中英文混输。
- 没有癫狂的翻译模式。
- 是否离线可用存疑?
- Wispr flow https://wisprflow.ai/
- 收费一票否决,无法用于工作电脑。GPT才20刀一个月,凭什么12刀一个月。
- 主要服务于英文玩家,不是默认中英文混输。
- 没有癫狂的翻译模式。
- 是否离线可用存疑?
- Handy https://handy.computer/
- 没有 LLM 后处理的功能。
- LazyTyper https://lazytyper.com/
- 只有一种 polish 模式。不能新增和切换多种模式(比如不同程度的 polish)。
- 参数调节的选择过多。比如需要自己设置temperature。在我看来这是非常奇怪的用户体验。
- 不确定他是否后面会用来盈利。他50多MB的安装包(对比HoAh ~10MB),在我看来可能装了一些用户不太需要的东西。
如果有大佬觉得好用,感觉帮助到你解决了一些痛点。我最近在找工,求个内推
。
一些比较重大的更新:
-
增加了ollama 作为 AI Action 的选项。这样可以全流程纯本地化了。但是我个人不太推荐,除非断网环境。因为小模型的能力较差,本地的latency比较高。
-
添加了云端流式听写 (ElevenLabs, OpenAI, Amazon Transcribe)。我个人体验还是用 ElevenLabs 的质量和延迟效果最好。很容易理解云端streaming会更贵,我仍然觉得大多数情况本地whisper+Groq AI Action就够用了。