4月2日,美团对外发布了一款名为LongCat-AudioDiT的音频生成模型,该模型在文本转语音(TTS)领域实现了技术突破,直接在波形潜空间进行基于扩散模型的转换,摒弃了传统的梅尔谱等中间表示。这一创新减少了在不同空间转换过程中累积的误差,提升了合成声音的高保真度和个性化细节。
LongCat-AudioDiT的核心架构包括一个波形变分自编码器(Wav-VAE)和一个扩散Transformer(DiT),在波形隐空间内完成声音的压缩、建模与重建。该模型采用了高效的下采样与多尺度建模、非参数捷径稳定训练以及对抗式多目标训练等创新技术。其骨干网络基于Transformer,并集成了全局自适应层归一化(GlobalAdaLN)、QK-Norm+RoPE稳定注意力训练等多项结构优化,有效修复了流匹配TTS的“训练-推理”不匹配问题。
在性能测试方面,LongCat-AudioDiT的3.5B版本在Seed-ZH测试集的说话人相似度(SIM)指标达到了0.818,Seed-Hard测试集达到0.797,超越了Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。目前,LongCat-AudioDiT模型已经开源,相关论文和代码可通过链接访问。


