今日,阿里通义实验室宣布发布并开源首个支持影视级多场景配音的多模态大模型Fun-CineForge,同时开放了高质量数据集的构建方法。Fun-CineForge旨在解决影视级AI配音面临的口型同步、情绪表达、音色一致和时间对齐等关键问题。该模型通过“数据+模型”的一体化设计,针对现有AI配音方法中高质量多模态数据集稀缺和模型能力不足的瓶颈,提供了新的解决方案。
Fun-CineForge的核心开源内容包括面向复杂影视场景的多模态配音大模型和大规模多模态配音数据集构建流程(CineDub)。模型基于CosyVoice3的语音合成能力,能够将视频和文本转换为语音,同时参考角色属性、情感线索和时间信息。Fun-CineForge通过自动化数据集生产流程,将原始影视素材转化为结构化多模态数据,覆盖独白、旁白、对话等多种场景,并包含转录台词、帧级人脸唇部数据等多模态信息,为训练大模型提供基础。
技术创新方面,Fun-CineForge首次在配音模型中引入“时间模态”,使模型能够深入理解在什么时间段内哪个角色在说什么,即使在视觉模态“看不到”说话人时,也能实现准确的音画同步。实验结果表明,Fun-CineForge在语音自然度、字错率、情感表达能力等多个关键指标上优于现有开源配音模型,尤其在独白和旁白场景中效果最佳,并首次支持双人对话与多人对话场景。


