6月22日,百度开源推出了UnlimitedOCR模型,该模型拥有30亿的总参数量,但在推理时仅激活5亿参数,旨在解决端到端OCR模型在解析长文档时速度逐渐下降的问题。端到端OCR模型通过统一神经网络架构,直接从图像映射到文本序列输出,减少信息丢失和计算冗余。然而,主流模型在生成每个token时会扩大KVcache,导致显存占用和延迟上升,影响多页文档的解析效率。
UnlimitedOCR模型继承了DeepSeekOCR架构,保留了DeepEncoder与Mixture-of-Experts(MoE)解码器。在编码端,该模型采用两级视觉编码,并在连接阶段执行16倍token压缩,将1024×1024的PDF图像压缩为256个视觉token,有效减轻预填充负担。训练方面,UnlimitedOCR基于DeepSeekOCR检查点继续训练4000步,冻结DeepEncoder,仅训练解码器,使用了约200万份文档样本,运行在8×16A800GPU上。数据配比为单页与多页约9:1,多页样本通过拼接构造。
基准测试显示,UnlimitedOCR在OmniDocBenchv1.5上的整体得分为93.23,高于DeepSeekOCR的87.01和DeepSeekOCR2的89.17。其文本编辑距离为0.038,公式CDM为92.61,表格TEDS为90.93,读序编辑距离为0.045。在OmniDocBenchv1.6上,模型整体得分进一步提升至93.92。


