资讯详情
行业标准过时了?杨植麟首次披露Kimi技术路径
李彦| 2026-03-18 19:16:15
月之暗面KimiAI


出品/未来科技界

作者/李彦

编辑/木鱼

大模型的底层架构,过时了?

过去几年,行业对“Scaling”的理解几乎等同于算力堆砌与参数扩张。但在今年的技术交流中,一个更清晰的共识正在形成:单纯依赖资源线性投入,已经难以持续推高模型能力的上限。如何在效率、结构与系统协同中寻找新的“规模红利”,成为新的命题。

北京时间3月18日凌晨,月之暗面创始人杨植麟在英伟达 GTC 2026大会上首次系统披露了Kimi K2.5的技术路线图,其核心指向“更有效率的规模化”。

他将Kimi的演进总结为三个维度的协同:Token效率、长上下文能力,以及智能体集群(Agent Swarms)。这三个方向并非独立优化,而是试图形成乘数效应——即通过效率提升降低计算成本,通过长上下文提升推理能力,再通过多智能体协作放大任务处理能力,从而整体抬升模型智能水平。

这一技术路线的落脚点,在于对既有基础架构的重构。

以优化器为例,自2014年以来,Adam系列几乎成为行业标准。但在超大规模训练中,其Tokenl效率与稳定性问题逐渐暴露。Kimi团队在实践中引入Muon优化器,并进一步开发出MuonClip机制,通过数值稳定性改进解决Logits爆炸问题,在效率上实现对AdamW约2倍的提升。这意味着,在相同算力条件下,模型可以完成更多有效训练,从源头提升“性价比”。

针对 2017 年诞生的全注意力机制(Full Attention),杨植麟展示了基于KDA架构的 Kimi Linear。这是一种混合线性注意力架构,它挑战了“所有层必须使用全注意力”的惯例,通过优化递归存储管理,在128K甚至1M的超长上下文中,将解码速度提升了5到6倍,且在不同长度的场景下均保持了优异性能。

与此同时,针对残差连接这一长期被忽视的基础组件,Kimi提出了Attention Residuals方案。通过用注意力机制替代传统的逐层累加,模型可以更有选择性地利用历史信息,从而避免深层网络中信息被稀释的问题。这类改进虽然不如新模型架构“显眼”,却直接作用于模型表达能力的上限。

如果说上述优化仍停留在单模型层面,那么Kimi更进一步的探索,则指向“多模型协作”。


在演讲中,杨植麟提出,未来的AI形态将不再是单一智能体,而是由多个Agent动态组成的协作系统。Kimi K2.5中的Orchestrator机制,能够将复杂任务拆解为多个子任务,并分配给不同Agent并行执行。同时,通过专门设计的强化学习奖励函数,避免多Agent系统退化为串行流程,从而真正实现并行效率提升。

这一思路,实质上将“Scaling”从单模型扩展为“系统级Scaling”。当任务复杂度不断提高,仅依赖单一模型能力已难以覆盖全部场景,分布式智能体协作可能成为新的主流范式。

此外,Kimi在跨模态方向上的实验也提供了一个值得注意的信号:视觉强化学习不仅提升视觉能力,还能够反向增强文本推理能力。在相关基准测试中,这种训练方式带来了约2.1%的文本性能提升。这表明,不同模态之间的能力并非孤立,而是存在可以被利用的迁移关系。

从更宏观的角度看,这场演讲所传递的信息,或许比具体技术细节更重要。

一方面,大模型的发展正在从“资源驱动”转向“效率驱动”。当算力供给逐渐成为瓶颈,谁能在单位算力中挖掘出更高价值,谁就拥有更强的竞争力。

另一方面,AI的竞争边界也在外扩。从模型本身,到训练方法,再到多智能体系统,技术演进正在向更复杂的系统工程演化。

杨植麟在最后提到,过去受限于算力,很多技术想法难以通过大规模实验验证,而现在,随着“Scaling Ladder”的建立,研究者可以在不同规模上反复验证假设,从而让那些曾被忽视的“旧技术”重新焕发生命力。

转载之前请先阅读转载说明,违规转载法律必究
寻求报道或合作,请点击这里
如果您加入壹览的讨论群,请联系我们的工作人员(微信号:star_3979)