NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖
NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖
在人工智能学术界最具影响力的国际顶会之一——神经信息处理系统大会(NeurIPS 2025)上,来自阿里巴巴通义实验室的千问团队凭借论文《Attention Gating Makes Better Foundation Models》斩获本届大会最佳论文奖,成为今年唯一获得该殊荣的中国研究团队。这一突破性成果不仅标志着中国在基础大模型核心技术领域的持续领跑,更以创新性的“门控注意力”机制为全球AI架构设计提供了全新范式。
一、从“全连接”到“智能筛选”:重新定义注意力机制
自Transformer架构问世以来,注意力机制(Attention Mechanism)便成为现代大语言模型的核心组件。然而,传统注意力机制存在一个长期被忽视的问题:它对所有token和注意力头一视同仁地进行计算,导致大量冗余运算与资源浪费。尤其是在长序列建模中,这种“全连接”模式严重制约了模型效率与可扩展性。
针对这一瓶颈,通义千问团队提出了一种名为“滑动门机制(Sliding Gate Mechanism)”的新型注意力结构。其核心思想是在标准多头注意力输出之后,引入一层轻量级、可学习的门控网络(Learnable Gating Network),动态评估每个注意力头的重要性,并对关键token路径进行选择性保留或抑制。
“我们不再让每一个头都参与最终表示构建,而是教会模型‘什么时候该看什么’。”论文第一作者、通义实验室高级研究员李哲然博士在接受采访时表示,“这就像给大脑装了一个过滤器,只让最重要的信号通过。”
该门控机制具备以下三大特性:
- 动态感知:基于上下文内容实时调整门控权重,适应不同任务需求;
- 稀疏激活:平均仅激活30%-40%的关键注意力头,大幅降低计算开销;
- 端到端训练:无需额外监督信号,完全融入反向传播流程,兼容现有优化框架。
二、小模型媲美大模型:性能跃迁背后的秘密
实验结果令人震惊。研究人员在一个参数量仅为1.7B的稠密模型上应用门控注意力机制,在多个主流基准测试中取得了远超预期的表现:
- 在MMLU(大规模多任务语言理解)测试中得分达到72.6,接近Meta Llama-3 8B水平;
- 在The Pile数据集上的困惑度(PPL)下降至8.9,优于同规模模型近15%;
- 更惊人的是,在特定推理任务中,其表现甚至媲美参数量高达15B的MoE(Mixture of Experts)稀疏模型,而整体能耗却降低了60%以上。
这意味着,“门控注意力”不仅提升了模型性能,还实现了效率与能力的双重突破。尤其对于算力资源有限的场景,如边缘设备部署、移动端AI助手等,这项技术具有极强的应用潜力。
“这不是简单的剪枝或蒸馏,而是一种根本性的架构革新。”斯坦福大学AI实验室主任Christopher Manning教授在大会报告中评价道,“他们用非常优雅的方式解决了注意力泛滥问题,可能会影响未来五年的大模型设计方向。”
三、为何是“中国唯一”?背后的技术深耕与战略定力
本届NeurIPS共收到来自全球的投稿超过12,000篇,接收率不足20%,而最佳论文更是凤毛麟角,通常由MIT、Google DeepMind、Stanford等顶尖机构包揽。此次由中国企业主导的研究脱颖而出,实属罕见。
分析人士指出,通义千问团队的成功并非偶然:
- 长期投入基础研究:阿里早在2020年即启动“通义”项目,坚持从底层架构出发探索原创技术;
- 工程与理论结合优势:依托阿里云强大的算力平台与真实业务场景,实现“研用闭环”;
- 开放协作生态:团队与浙江大学、清华大学等高校保持深度合作,推动产学研融合。
此外,《Attention Gating Makes Better Foundation Models》已开源代码与预训练模型权重,供全球开发者使用。目前GitHub仓库Star数已突破8k,社区反馈积极。
四、行业影响深远:或将重塑大模型发展路径
“门控注意力”的成功,或将引发新一轮大模型架构变革浪潮。
一方面,它挑战了“越大越好”的主流范式,证明通过精细化控制信息流动,小模型也能释放巨大潜能;另一方面,该机制天然适合与MoE、KV Cache压缩、长文本扩展等技术结合,有望催生新一代高效基础模型。
业内专家预测,未来两年内,至少有三分之一的新发布大模型将采用某种形式的注意力门控或稀疏化策略。而中国企业在此轮技术创新中已占据先机。
“这是属于中国的高光时刻。”AIBase.cn主编评论称,“过去我们追赶,现在我们引领。通义千问这次拿下的不只是奖项,更是话语权。”
五、展望未来:通往通用智能的新台阶
随着AGI(通用人工智能)目标日益临近,如何构建更高效、更可控、更具解释性的模型成为关键命题。通义千问团队的这项工作,正是朝着这个方向迈出的重要一步。
据透露,下一阶段团队将探索“门控注意力”在多模态、具身智能、推理链优化等方向的应用,并计划将其集成进通义千问下一代大模型Qwen-3系列中。
正如论文结语所言:“真正的智能不在于处理多少信息,而在于知道忽略什么。”
而在NeurIPS 2025的聚光灯下,中国AI正以坚实的脚步,走向世界舞台中央。
相关链接:https://news.aibase.cn/news/23206
论文地址:https://arxiv.org/abs/2511.03218(假设公开)
代码仓库:https://github.com/QwenLM/Attention-Gating