今日,百度文心大模型团队宣布开源文生图模型ERNIE-Image,该模型参数量仅8B,能在24GB显存的消费级显卡上生成超真实、复杂的图像,媲美顶级商业模型。ERNIE-Image基于单流DiffusionTransformer架构,并配有轻量级PromptEnhancer,将简短输入扩展为更丰富的描述。模型在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,适合海报、漫画等需要控制能力的内容生产场景,并覆盖多种视觉风格。
ERNIE-Image的模型权重和推理代码已在HuggingFace开源,遵循Apache2.0协议,并已支持ComfyUIWorkflow。此外,百度联合Unsloth推出GGUF量化方案,进一步优化模型性能。在多个国际基准测试中,ERNIE-Image展现了其在通用图像生成、双语理解、复杂指令执行等任务中的领先能力,尤其在文字渲染能力上达到开源模型的SOTA效果。


