今日,阿里通义宣布Qwen3-TTS家族新增两款模型,分别为音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。Qwen3-TTS-VD-Flash支持复杂自然语言指令输入,实现对音色、韵律、情感等的精细化调控,用户可自由定义音色,不再局限于预设音色。在InstructTTS-Eval中,其综合表现超越了GPT-4o-mini-tts、Mimo-audio-7b-instruct等模型。Qwen3-TTS-VC-Flash则支持3秒级别音色克隆,并能生成10大主流语言的音频,其在MiniMaxTTSMultilingualTestSet上的平均词错误率(WER)全面优于其他模型。
两款新模型均具备高表现力的拟人化音色,能够稳定输出与输入文本高度契合的语音内容,并自动调节语气节奏。它们还具备强大的文本解析能力,能自动处理复杂文本结构,精准提取关键信息,展现出较强的鲁棒性。Qwen3-TTS-VD-Flash支持通过自然语言描述生成定制化的音色形象,而Qwen3-TTS-VC-Flash则支持基于克隆音色生成多语种音频,对复杂文本和野生音频都有较高的鲁棒性。这两款模型的推出,标志着阿里通义在文本到语音技术领域的进一步发展。

