今日,通义大模型宣布正式发布并开源了Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列。这两个模型基于Qwen3-VL构建,专为多模态信息检索与跨模态理解设计,能够处理文本、图像、视频等多种模态输入,并在图文检索、视频-文本匹配等任务中达到业界领先水平。Qwen3-VL-Embedding模型通过统一表示学习,将视觉与文本信息映射到同一语义空间中,实现高效的跨模态相似度计算与检索。而Qwen3-VL-Reranker模型则接收任意模态组合的查询与文档对,输出精确的相关性分数,两者常协同工作,构成“两阶段检索流程”,显著提升最终结果精度。
Qwen3-VL系列模型继承了Qwen3-VL的多语言能力,支持超过30种语言,适合全球化部署。模型提供灵活的向量维度选择、任务指令定制,以及量化后仍保持的优秀性能,便于开发者集成到现有系统中。在MMEB-v2、MMTEB等权威多模态检索基准测试中,Qwen3-VL系列模型展现出了强劲实力。Qwen3-VL-Embedding-8B模型在MMEB-V2上取得了业界领先的结果,超越了所有先前的开源模型和闭源商业服务。Qwen3-VL-Reranker模型在视觉文档检索等任务中,性能均持续优于基础Embedding模型和基线Reranker模型,其中8B版本在大多数任务中达到了最佳性能。这些性能表现的背后,是针对多模态检索流程量身定制的架构设计。


