快讯详情
智源发布原生多模态世界模型Emu3,实现图像、文本、视频大一统
速途网| 2024-10-21 15:01:02

速途网讯,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。据了解,Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL 、LLaVA、OpenSora等知名开源模型。

转载之前请先阅读转载说明,违规转载法律必究
寻求报道或合作,请点击这里
如果您加入壹览的讨论群,请联系我们的工作人员(微信号:star_3979)