我们离端侧上运行GPT3.5还有多远？

258 · 2026 年3 月 6 日 17:01

现在的数据中心狂潮都是基于未来推理需求必须通过集中运算才能实现。
什么时候移动端能独立运行等效GPT3.5能力的模型呢？
再加上在线搜索功能和外挂个性化模块应该能胜任大多数日常活动了吧。
到时数据中心会迎来新的定价和需求估算。

https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/

中美合拍 · 2026 年3 月 6 日 17:04

你对移动端的场景定义是什么呢？是类似于车载的场景、还是说手机侧的场景、还是说直接植入体内的场景

258 · 2026 年3 月 6 日 17:08

等效于iphone 17 pro性能的硬件？

illusionwing · 2026 年3 月 6 日 17:10

gpt3.5需要350G快速存储，在可观未来都不太可能吧。i4也需要128G的样子。

这种东西说到底还是需要dpsk那样的架构升级，所以现在可以用8G跑llama SLM，其实通用任务性能和GPT3.5差不多。如果要推理用phi，写代码用nemo之类的。模型越小肯定就越要选择。但是8G的话，一个Mac Mini就能跑了。这也是 OpenClaw 最近能够火起来的原因吧，说到底也是SLM的发展。话说回来也是我不太看好OAI这种最近架构创新比较少，全是在堆参数的原因

otonoco · 2026 年3 月 6 日 17:11

我可以在我的海马体里运行 gpt6 这个秘密我一般不告诉别人

258 · 2026 年3 月 6 日 17:13

开源一下海马体？

不论gemma还是phi 其实大多数场景已经不比3.5 turbo差了性能需求里在移动端运行并不是很遥远
长尾情况下因为小模型肯定还是有缺陷

yi6um · 2026 年3 月 6 日 17:14

dpsk是啥

IlllIIlIIIllIIl · 2026 年3 月 6 日 17:18

deepseek

otonoco · 2026 年3 月 6 日 17:21

double-penetrated south korean

yi6um · 2026 年3 月 6 日 17:22

第一直觉想到的是Differential Phase Shift Keying

otonoco · 2026 年3 月 6 日 17:34

海马体开源可以海绵体开源达咩

因果推断 · 2026 年3 月 6 日 17:37

Qwen 3.5 0.8B 手机上就可以运行

某幺凡 · 2026 年3 月 6 日 17:46

问题是gpt3.5参数又多性能也不好啊，也就现在现在1B的模型水平，现在手机也能运行这个水平的模型了吧

eRic.DDDDDX · 2026 年3 月 6 日 17:47

include BillHuang.海绵体

宝贝你今天好猛感觉好不一样

otonoco · 2026 年3 月 6 日 17:49

Hwang

Small-Potato · 2026 年3 月 6 日 17:52

pip BillHwang

PresidentTrump · 2026 年3 月 6 日 17:52

海马体还是海绵体

ZsarMagoth · 2026 年3 月 6 日 17:53

qwen3.5-9B的能力好像已经超过gpt 3.5了吧。iphone 17pro有12G运存，理论上已经能跑了。

xyzxyzxyz · 2026 年3 月 6 日 18:27

ram跟vram速度还是不能比吧。
我在oci arm上跑个qwen 2.5 7b还是专门针对架构优化过的llama.cpp+q4_k_4量化也就只能跑出8t/s

i589pending · 2026 年3 月 6 日 19:08

主要是gpt3.5性能不行啊，楼主有机会试试2b的qwen，性能相当接近gpt 3.5