5月26日,PrismML公司宣布推出BonsaiImage4B系列图像生成模型,该模型在iPhone 17 Pro Max上生成512×512图像的时间约为9.4秒。BonsaiImage4B系列包含1-bitBonsaiImage4B和TernaryBonsaiImage4B两个版本,1-bit版本专注于极致压缩,而Ternary版本在保持小体积的同时,提高了画面质量和提示词还原度。
这两个版本的模型都是基于FLUX.2Klein4B构建的,主要调整在于扩散Transformer的权重表示方式。1-bit版本使用二值权重,权重集合为{-1,+1},配合FP16分组缩放后,单权重等效位宽为1.125bit;Ternary版本则采用三值权重,权重集合为{-1,0,+1},等效位宽为1.71bit,因此具有更高的表示灵活性。在体积上,1-bit版本的二值层相对全精度Transformer权重缩小至14分之一,Transformer体积压到0.93GB,较7.75GB的全精度FLUX.2Klein4B缩小至8.3分之一。运行时内存占用也显著下降,生成512×512图像时,1-bit与Ternary版本平均活跃内存分别为1.5GB与1.96GB,全精度FLUX.2Klein4B则高达11.74GB。
在速度与效果方面,BonsaiImage4B在iPhone 17 Pro Max上生成512×512图像约需9.4秒,在Mac M4 Pro上约6秒;在Mac M4 Pro平台上,最高可比全精度MFLUX流水线快5.6倍。质量评测覆盖GenEval、HPSv3、DPG-Bench三项基准,其中Ternary版本在1.21GB体积下保留FLUX.2Klein4B约95%准确性,1-bit版本在不足1GB的前提下保留约88%准确性。


