华为联手湖北移动实现AI推理加速新突破,长序列处理效率最高提升372%
创始人
2026-06-26 07:34:07
0次
6月24日,在2026MWC上海展期间,华为与湖北移动联合宣布,双方已完成全国运营商首个AI推理加速解决方案现网测试。该测试基于华为OceanStorA800存储与昇腾A3超节点架构,搭载UCM推理记忆数据管理技术,在长序列AI推理场景下,实现了Token吞吐率最高提升372%的突破性成果。
测试在湖北移动现网环境中部署vLLM-Ascend框架,针对MiniMaxM2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。结果显示,在MiniMaxM2.5模型场景下,启用UCM后,首Token延迟优化26%~62%,单NPU卡Token输出效率提升58%~78%。在GLM-5.1模型场景下,首Token延迟优化幅度达51%~93%,TPS提升56%~372%。华为表示,测试表明,随着上下文长度增加,AI推理加速方案优势持续放大,有效解决了长序列推理中的KVCache容量瓶颈。
相关内容