6月22日,京东宣布开源实时视频视觉语言交互模型JoyAI-VL-Interaction,这标志着全球首个全栈开源的interaction模型和系统的诞生,同时获得vLLM-Omni的day-0原生支持。该模型突破了传统模型的局限,能够实现从“一问一答”到“边看边说”的转变,允许开发者快速构建能够持续观察、自主判断、即时响应的实景AI助手。
JoyAI-VL-Interaction在功能上实现了三重突破:首先,它能够主动判断何时发言,而不需要等待用户提问;其次,它能够实时响应视频流的变化,与传统的事后总结不同;最后,它具备后台任务委派能力,能够在处理复杂任务时,将前台模型保持在观察和交互状态。该模型支持多种视频输入,包括摄像头、直播流、监控流等,并支持语音输入输出、可视化界面、长期记忆、后台模型接口和vLLM部署方案,开发者可以根据自己的需求替换ASR、TTS、可视化界面、后台模型、外部工具和业务模块。
在实际应用中,JoyAI-VL-Interaction能够覆盖监控预警、实时计数、实时翻译、时间感知、直播导览解说等真实流式场景。在与视觉触发的主动响应、实时性高度相关的58个真人盲评案例中,JoyAI-VL-Interaction相较于其他视频通话助手展现出了更高的胜率,总体胜率分别为77.6%和87.9%。

