京东即将开源视觉语言实时交互模型

6月17日消息，京东团队即将开源视觉语言实时交互模型JoyAI-VL-Interaction。媒体从一份在开源社区和海外AI技术圈受到关注的技术报告获悉，JoyAI-VL-Interaction把多模态大模型从“一问一答”，推进到“实时流式交互”，适合需要AI持续在场的场景。报告将JoyAI-VL-Interaction与豆包、Gemini 的App内视频通话助手进行了人工评测，覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。在58个案例中，JoyAI-VL-Interaction对豆包的总体胜率为77.6%，对Gemini的总体胜率为87.9%。其中，在监控预警场景中，对两个基线均取得100%胜率。

转载之前请先阅读转载说明，违规转载法律必究

寻求报道或合作，请点击这里

如果您加入壹览的讨论群，请联系我们的工作人员（微信号：star_3979)