7月5日消息,阿里“通义大模型”公众号发文宣布,通义实验室首个音频生成模型ThinkSound现已正式开源,将打破“静音画面”的想象力局限。ThinkSound首次将CoT(Chain-of-Thought,思维链)应用到音频生成领域,让AI学会一步步“想清楚”画面事件与声音之间的关系,从而实现高保真、强同步的空间音频生成——不只是“看图配音”,而是真正“听懂画面”。
24小时热榜