速途网讯 6 月 5 日,在 2026 AI 产业应用大会上,腾讯云音视频正式发布 AI 原生能力底座 WAND。WAND 从底层模型、媒体能力到接入方式全面升级,音视频的媒体 AI 能力将以 Agent-Native 模式向行业开放。
据悉,腾讯云音视频在编解码、传输、增强等长期积累的原子能力之上,引入六大自研媒体专用模型,并以 Agent-Native 方式开放,共同构成 WAND 的三层架构。WAND 取自四个关键词:Wide(全场景覆盖)、Amplify(以 AI 放大创作潜能)、Neural(自研模型驱动)、Delivery(稳定、一站式交付),从生成到交付一站式完成。
具体来看,最底层是模型引擎,由编解码、增强、擦除、生成、理解、音频六大自研媒体专用模型构成,补充生图、生视频、生音乐、生语音、生 3D等主流生成式基础大模型在媒体生产流程上的应用能力。
模型之上是面向调用的能力层。基于模型能力,WAND 把 60+ 项媒体 AI 能力按生成、理解、处理、编码四个环节重新组织,通过 API、Agent 预编排工作流(Agentic Workflow)和 Skills 三种 Agent-Native 模式开放。再往上,这些产品能力被组织为面向具体行业的端到端场景方案。
腾讯云音视频团队表示,WAND 的发布,标志着腾讯云音视频从提供单点媒体处理能力,升级为面向 AI 应用与 Agent 的原生媒体底座。未来,腾讯云将与更多客户共同探索 AI Agent 时代的音视频应用形态。
24小时热榜
