关注Model Opensource2026-06-22 17:33:36

京东全栈开源全球首个实时视频视觉语言交互模型JoyAI-VL-Interaction

京东近日宣布全栈开源实时视频视觉语言交互模型JoyAI-VL-Interaction，称其为全球首个全栈开源的interaction模型和系统，已获得vLLM-Omni的day-0原生支持。该模型打破传统多模态模型一问一答模式，支持实时视频流交互，开发者可基于它快速搭建实景AI助手。

编辑视角

该项目填补了全栈开源实时视频交互模型的空白，模块化设计降低开发门槛，对开发实景AI应用的开发者具备较高实用参考价值。

深度解读

本次事件主旨为京东推出全球首个全栈开源的实时视频视觉语言交互模型与系统，打破传统多模态模型一问一答的被动交互模式，核心特性包括主动判断交互时机、实时响应视频流变化、模块化组件可按需替换，且获vLLM-Omni day-0原生支持，方便开发者快速部署。证据方面，新华网、新浪财经、IT之家等多个权威媒体均报道了京东官方的开源消息，明确了其技术定位与特点。边界方面，目前公开信息未披露该模型的实际性能测试数据、大规模业务落地案例，也未查询到开源仓库的社区互动数据，其实际易用性与稳定性还需进一步验证。后续需关注开源社区迭代进度与实际场景落地效果。

核心要点

京东官方近日全栈开源实时视频视觉语言交互模型JoyAI-VL-Interaction
该项目是全球首个全栈开源的interaction模型和系统，获vLLM-Omni原生支持
具备主动判断、实时响应特性，支持模块化组件按需替换，可快速搭建实景AI助手