今日,小米宣布MiMo-V2.5系列API永久降价,最高降幅达99%,此次降价基于推理系统全链路优化方案。该方案围绕HybridSWA+MoE+多模态的复合架构,系统性重构了从KVCache管理、分级缓存、前缀缓存到调度策略与Prefill/Decode链路的完整推理栈。KVCache存储压缩至同级方案的约1/7,在长序列场景下推理成本大幅下降,这是本次降价的核心技术基础。
小米MiMo-V2.5系列模型的优化实践包括KVCache系统重构、前缀缓存树重构和GCache三级缓存,以及调度与Prefill优化,使得缓存真正省下来并提升复用率。此外,还包括Decode加速与多模态优化,提升了生成速度。这些优化使得MiMo-V2.5系列在长文推理上兼具强度与效率,实现了大规模工程落地。
小米将由此节省的成本以API降价回馈用户,并已将部分优化以PR形式回馈SGLang开源社区,持续推进更多开源计划,希望使这类兼具强度与效率的复合架构得到更广泛的探索与应用。


