智源发布原生多模态世界模型Emu3，实现图像、文本、视频大一统_壹览商业

速途网讯，智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。据了解，Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型。

转载之前请先阅读转载说明，违规转载法律必究

寻求报道或合作，请点击这里

如果您加入壹览的讨论群，请联系我们的工作人员（微信号：star_3979)

上一篇下一篇

24小时热榜

重新理解霸王茶姬：被误读的调整期与被低估的系统能力

外卖非终局，真正的决胜点在即时零售

2

漕河泾印象城五周年活动启幕

3

4

茉莉奶白百店同开，三天GMV破千万

5

一季度337亿营收背后，AI正在重写快手增长逻辑

6

抖音生活服务开放日：夯实消费者安心消费防线，打造暖心服务长效机制

7

国产大模型们，站在了Freemium的十字路口

8

一年内迅速将所有业务塞进AI，阿里试图卡位AI应用落地

9

对话半山恰朱晓雯：Gelato窗口期只剩两三年，我们一定能成标杆

10

不卷价格卷信任京东生鲜用超级供应链与共建标准驱动产业长效升级