AI搜索导航
  • 首页
  • 科技方案
  • AI智能工具
  • AI摇一摇
  • 书籍推荐
登录 注册
  • 首页
  • 科技方案
  • AI智能工具
  • AI摇一摇
  • 书籍推荐
  • 首页
  • 科技热点
  • Kimi最近发力了,刚刚放出来一款:Kimi Linear,在1M 上下文长度下,KV缓存减少75%,解码吞吐提升6倍

Kimi最近发力了,刚刚放出来一款:Kimi Linear,在1M 上下文长度下,KV缓存减少75%,解码吞吐提升6倍

2025-11-03 作者:技术PP虾 浏览量:504

近日,国内人工智能领军企业月之暗面(Moonshot AI)再次引发行业关注。其核心产品Kimi智能模型系列迎来重大技术突破——正式发布全新推理加速架构 Kimi Linear。该技术在长达1M(即一百万)token的上下文处理场景下,实现了KV缓存减少75%,同时解码吞吐量提升高达6倍,标志着长文本处理效率迈入新纪元。

这一进展不仅大幅降低了高上下文AI模型的推理成本,也为实际应用场景如法律文书分析、科研论文理解、代码生成与审计、长篇内容创作等提供了前所未有的支持能力。

MMLU-Pro(4k 上下文)得分 51.0,速度与全注意力相当
RULER(128k 上下文)得分 84.3,速度提升3.98倍
1M token超长序列,解码吞吐比MLA快6.3倍

Kimi Linear把Transformer里最耗内存最拖速度的全注意力,大部分换成了硬件友好的线性注意力,3层+1层混合比例,省显存,提高了长文本生成速度

对长上下文应用的场景,可以更便宜、快速落地了

HF:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
github:https://github.com/MoonshotAI/Kimi-Linear


分类

  • 全部 (1766)
  • 科技热点 (837)
  • 前端科技 (6)
  • AI指令集合 (417)
  • 经验分享 (3)
  • 动漫短片创作脚本 (503)

相关最新

  • Google DeepMind入股CCP Games,EVE Online成为通用人工智能实验场
  • ​OpenAI 发布三款实时语音模型,针对推理对话、实时翻译和实时转录
  • Mininglamp 开源 Cider+Mano-P,让你的 Mac 变身私有 AI 工作站
  • 全线封杀!Claude桌面端收紧限制,DeepSeek V4 等第三方模型已无法直接接入
  • 机器人界的“ChatGPT时刻”?Genesis AI 单模型搞定打蛋弹琴,这波Demo太炸了!
  • 苹果首款AI硬件曝光:带摄像头的AirPods已进入 DVT 阶段
关于我们 免责声明 用户协议
Copyright ©2026 AI搜索导航 All Rights Reserved
渝公网安备50019002504915号 渝ICP备2025061478号-2
首页 分类
工具
书籍 文章 我的