Kimi最近发力了，刚刚放出来一款：Kimi Linear，在1M 上下文长度下，KV缓存减少75%，解码吞吐提升6倍

2025-11-03 作者：技术PP虾浏览量：504

近日，国内人工智能领军企业月之暗面（Moonshot AI）再次引发行业关注。其核心产品Kimi智能模型系列迎来重大技术突破——正式发布全新推理加速架构 Kimi Linear。该技术在长达1M（即一百万）token的上下文处理场景下，实现了KV缓存减少75%，同时解码吞吐量提升高达6倍，标志着长文本处理效率迈入新纪元。

这一进展不仅大幅降低了高上下文AI模型的推理成本，也为实际应用场景如法律文书分析、科研论文理解、代码生成与审计、长篇内容创作等提供了前所未有的支持能力。

MMLU-Pro（4k 上下文）得分 51.0，速度与全注意力相当
RULER（128k 上下文）得分 84.3，速度提升3.98倍
1M token超长序列，解码吞吐比MLA快6.3倍

Kimi Linear把Transformer里最耗内存最拖速度的全注意力，大部分换成了硬件友好的线性注意力，3层+1层混合比例，省显存，提高了长文本生成速度

对长上下文应用的场景，可以更便宜、快速落地了

HF：https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
github：https://github.com/MoonshotAI/Kimi-Linear