阿里通义首个音频生成模型ThinkSound正式开源

7月5日消息，阿里“通义大模型”公众号发文宣布，通义实验室首个音频生成模型ThinkSound现已正式开源，将打破“静音画面”的想象力局限。ThinkSound首次将CoT（Chain-of-Thought，思维链）应用到音频生成领域，让AI学会一步步“想清楚”画面事件与声音之间的关系，从而实现高保真、强同步的空间音频生成——不只是“看图配音”，而是真正“听懂画面”。

转载之前请先阅读转载说明，违规转载法律必究

寻求报道或合作，请点击这里

如果您加入壹览的讨论群，请联系我们的工作人员（微信号：star_3979)