快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破
快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破
2025年11月28日,人工智能领域迎来又一里程碑事件。快手Kwai-Keye团队正式发布其新一代旗舰级多模态大语言模型(MLLM)——Keye-VL-671B-A37B,并宣布该模型已全面开源。这款拥有高达6710亿参数的巨无霸模型,不仅刷新了国产多模态大模型的规模纪录,更凭借其“善看会想”的卓越能力,在通用视觉理解、复杂视频分析和奥林匹克级数学推理等核心基准测试中实现了全面突破,标志着中国在多模态AI技术竞赛中再次占据领先地位。
“火眼金睛”与“深度思考”:重新定义多模态智能
传统的多模态模型往往停留在“看见”的层面,而Keye-VL-671B-A37B则致力于实现真正的“看懂”与“会想”。其核心优势在于将强大的视觉感知能力与复杂的链式推理能力深度融合。
一个经典的案例充分展示了其“火眼金睛”般的细节洞察力:面对一张看似包含三张票据的图片,多数人甚至其他AI模型的第一反应都是“三张电影票”。然而,Keye-VL-671B-A37B却能进行细致入微的分析。它不仅能准确识别每张票据上的文字、标识和版式,更能结合上下文进行逻辑推理:左侧和中间的票据具备座位号、场次时间等关键信息,符合电影票特征;而最上方的票据缺少这些核心要素,且带有小吃兑换字样,因此被精准判定为“爆米花小吃券”,最终得出图中仅有两张电影票的正确结论。
这背后是模型对跨模态对齐与复杂推理链路的系统性升级。它不再仅仅是图像特征与文本标签的简单匹配,而是能够像人类一样,整合视觉线索、文本信息,并通过多步推理得出结论,展现了接近人类水平的认知能力。
视频理解新标杆:从“秒懂”到“深析”
作为短视频领域的巨头,快手在视频内容的理解上有着得天独厚的优势和深刻的需求。Keye-VL-671B-A37B将这一优势发挥到了极致,成为当前视频理解领域的“领头羊”。
模型不仅能捕捉视频中的静态元素,如“蓝色双层电车”、“Louis Vuitton”店铺招牌或“Tiffany & Co”标志,更能动态追踪镜头的运动轨迹和变化过程。当被询问视频镜头如何变化时,它能清晰地描述出镜头是从某个特定角度开始,随着电车移动而平移,最终聚焦于某个品牌门店的全过程。这种对时空信息的精准建模,得益于其先进的3D旋转位置编码(3D RoPE)技术,该技术能有效对齐文本、图像和视频的时间戳,捕捉复杂的时序动态。
为了验证其实际应用价值,研究人员曾让Keye-VL分析一个仅11秒的简易移动房屋介绍视频,并要求其生成一份销售方案。结果令人惊叹:模型迅速输出了一份涵盖产品亮点、目标客群、市场定位、营销策略等维度的完整推销方案,堪称商业文案的“优秀模板”。这证明了Keye-VL不仅能“秒懂”短视频,更能基于理解进行创造性的任务执行。
性能全面领先:18项基准测试夺冠
在权威的性能评估中,Keye-VL-671B-A37B的表现堪称统治级。在涵盖STEM科学、复杂推理、通用问答、视频理解、OCR光学字符识别和纯文本处理等在内的26项主流基准测试上,它一举拿下了18项最高分。
尤其在与字节跳动的Seed1.5-VL think、阿里巴巴的Qwen3-VL 235B-A22B等业界前沿模型的直接对比中,Keye-VL-671B-A37B在通用视觉理解和视频理解两大核心领域均展现出整体优势,确立了其作为当前最强国产多模态模型之一的地位。此前,其前身Keye-VL系列模型已在2025年高考全国数学卷中取得140分的惊人成绩,此次671B版本的发布,预示着其在数学和逻辑推理能力上将达到新的高度。
技术揭秘:高效架构与精炼数据之道
Keye-VL-671B-A37B的成功并非仅仅依赖于庞大的参数量,其背后是一套经过深思熟虑的技术架构和训练策略。
- 强大基座,珠联璧合:模型采用DeepSeek-V3-Terminus作为大语言模型基座进行初始化,继承了其卓越的文本生成和推理能力。视觉部分则采用源自前代模型Keye-VL-1.5的KeyeViT视觉编码器,并通过MLP(多层感知机)层进行桥接,确保了视觉与语言信号的高效融合。
- 原生分辨率,细节毕现:为保留图像的原始结构和丰富细节,模型采用了原生分辨率的视觉编码器。它基于SigLIP进行初始化,并引入了自适应分辨率的位置嵌入和二维旋转位置编码(2D RoPE),能够自然处理不同尺寸的图像,避免了传统方法中因图像拼接或分割造成的失真。
- 三阶段预训练,稳扎稳打:整个预训练过程分为三个严谨阶段:首先冻结主干模型,进行初步的跨模态对齐;接着开放全部参数,进行全面的多任务联合预训练;最后使用精选的高质量数据进行“退火”精调,以提升模型的细粒度判别能力。值得一提的是,快手仅使用了约300B(3000亿)高质量数据就完成了预训练,远低于动辄万亿token的行业常态,体现了其在数据筛选和利用效率上的高超水平。
- 强化学习,精益求精:在后训练阶段,模型经历了监督微调、冷启动和强化学习等步骤。其中,快手开发了专用的高精度强化学习验证器(Keye Verifier),用于检验模型推理的一致性和答案的正确性,其效果内部评估优于GPT-4o,从而显著放大了强化学习的增益,使模型的输出更加可靠。
开源生态,共塑未来
目前,Keye-VL-671B-A37B的代码、模型权重及相关技术文档已在Hugging Face和GitHub平台正式开源,向全球开发者和研究社区免费开放。
- GitHub: https://github.com/Kwai-Keye/Keye
- Hugging Face: https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
这一举措无疑将极大地推动国内乃至全球多模态AI技术的发展。开发者可以基于此模型进行二次开发,应用于内容审核、智能搜索、广告创意、教育辅助、无障碍服务等多个场景。
展望:迈向更通用的智能体
快手表示,未来的Keye-VL系列将持续进化,目标是向更“会用工具、能解复杂问题”的智能体(Agent)形态发展。重点方向包括:
- 强化多轮工具调用:使模型能自主调用搜索引擎、代码解释器等外部工具,完成信息检索、数据分析等复杂任务。
- 深化“Think with Image/Video”:探索让模型围绕图像和视频内容进行更深层次的链式思考与规划,而不仅仅是回答关于它们的问题。
从“看懂”到“思考”,再到“行动”,快手通过Keye-VL-671B-A37B的发布,不仅展示了其深厚的技术积累,更描绘了一幅通往更通用、更可靠的下一代多模态智能系统的宏伟蓝图。这场由国产力量引领的技术突破,正在为人工智能的未来发展注入强劲动力。