小红书开源首款多模态大模型

8月7日消息，小红书hi lab（人文智能实验室）开源了其首款多模态大模型dots.vlm1，这一模型基于DeepSeek V3打造，并配备了由小红书自研的12亿参数视觉编码器NaViT，具备多模态理解与推理能力。这一模型可以看懂复杂的图文图表，理解表情包背后的含义，分析两款产品的配料表差异，还能判断博物馆中文物、画作的名称和背景信息。

转载之前请先阅读转载说明，违规转载法律必究

寻求报道或合作，请点击这里

如果您加入壹览的讨论群，请联系我们的工作人员（微信号：star_3979)