3月23日,IT之家报道了一个技术突破,即iPhone 17 Pro成功运行了拥有4000亿参数的大语言模型。尽管这种模型通常需要大容量内存和高性能硬件,但通过一些技术手段,苹果的旗舰机型实现了这一壮举。一个名为Flash‑MoE的开源项目在iPhone 17 Pro上运行成功,尽管Token生成速度仅为0.6个Token/秒,但这一成就表明,经过进一步优化,未来在手机端本地运行大语言模型是可能的。
实现这一技术的关键原理在于Flash‑MoE利用了设备的固态硬盘(SSD),直接向GPU流式传输数据,而不是将整个大模型载入内存。此外,“MoE”代表混合专家模型(Mixture of Experts),这意味着在生成每个单词时,只需要调用4000亿参数中的一小部分。这种方法不仅保护了用户隐私,还允许在不联网的情况下获得回复,尽管这会严重消耗电池。
开发者们也尝试使用大语言模型的压缩版,即“量化版”,但即便是量化后的4000亿参数模型,最低仍需200GB内存,这在iPhone 17 Pro上原本是无法实现的。这次演示证明了,只要能忍受每秒仅0.6个Token的缓慢生成过程,就可以在智能手机上运行4000亿参数的大语言模型。尽管如此,“能跑起来”和“能流畅、可用地使用”之间仍有明显差距。

