商汤开源NEO架构:原生多模态模型放弃“拼图式”设计,数据量减90%仍拿下SOTA
标题:商汤开源NEO架构:原生多模态模型放弃“拼图式”设计,数据量减90%仍拿下SOTA
——一场从底层范式出发的多模态革命
一、破局之问:为什么当前多模态AI仍像“乐高拼图”?
过去五年,多模态大模型(如Flamingo、KOSMOS、Qwen-VL、LLaVA系列)虽取得显著进展,但其主流技术路径却高度趋同:“三段式拼图架构”——即分别训练视觉编码器(如ViT)、语言解码器(如LLaMA),再通过一个轻量适配器(Adapter)或交叉注意力模块强行“缝合”。这种设计看似高效,实则暗藏三大结构性瓶颈:
- 语义断层:图像被切分为离散Patch后经ViT编码为固定维度向量,再经线性投影映射至文本Token空间。这一过程丢失大量像素级连续性与局部几何关系,导致细粒度理解(如“左手轻托杯底,右手拇指抵住杯沿”的姿态推理)严重失真;
- 模态偏置:视觉特征被迫服从语言模型的tokenization范式(如BPE分词),而文本又需额外引入位置编码以模拟空间结构,造成双向不对称建模;
- 数据饥渴:为弥合上述鸿沟,现有方案普遍依赖千万级图文对+百万级指令微调数据,且高度依赖人工清洗与强对齐标注(如RefCOCO中的精确框标注),训练成本高昂、泛化边界模糊。
正如南洋理工大学AI研究院院长、NEO项目首席科学家Prof. Luo Si所言:“我们不是在优化拼图的胶水,而是重新设计一块能自然生长出两种纹理的晶体。”
二、范式跃迁:NEO如何实现“原生多模态”的底层重构?
NEO(Native Embodied Omni-modality)并非简单堆叠或改进模块,而是一次从计算单元、表征空间到训练目标的全栈重定义。其核心突破体现在三大原创性设计:
▶ 1. 像素直通式注意力(Pixel-to-Token Continuous Attention, PTCA)
NEO彻底取消传统Patch Embedding与独立视觉编码器。输入图像以原始分辨率(支持动态缩放至1024×1024)进入网络,通过可微分的空间感知卷积采样层(SPCS),直接生成与文本Token序列长度自适应对齐的连续特征流。该层内嵌尺度不变性归纳偏置,并与后续Transformer Block联合优化——这意味着每一个注意力头均可在像素级空间坐标与词元语义之间建立端到端可导映射,真正实现“看一眼就懂其结构,读一句即知其画面”。
实验显示:在RefCOCOg细粒度指代分割任务中,NEO-2B在仅用1/8标注框的情况下,mIoU达68.3%,超越使用全量标注的Qwen-VL 2.1个百分点。
▶ 2. 对称语义桥接空间(Symmetric Semantic Bridging Space, SSBS)
区别于单向“视觉→语言”投影,NEO构建了一个共享隐空间(Shared Latent Manifold),其中:
- 视觉侧通过几何约束嵌入(GCE) 显式编码相对位置、透视畸变与遮挡关系;
- 文本侧引入构型感知分词(Configural Tokenization),将动词短语(如“缓缓倾斜”“突然松手”)自动聚类为具备物理意义的动作基元;
- 二者在SSBS中通过对比学习与跨模态掩码重建联合对齐,使“杯子倾倒”既能激活对应像素区域的梯度响应,也能触发“液体流动”“重心偏移”等隐含物理概念的神经激活簇。
▶ 3. 动态模态权重蒸馏(Dynamic Modality-Aware Distillation, DMAD)
NEO在预训练阶段不预设模态主导权,而是让模型自主学习每条样本中视觉/语言信息的贡献熵。例如,在描述抽象画作时,文本信号权重自动提升;而在识别工业缺陷时,像素梯度回传强度增强3.7倍。该机制通过轻量门控网络实时调控各层前馈路径,使模型具备“情境自适应模态智商(Contextual Modality IQ)”。
三、效率奇迹:为何仅需10%数据就能登顶SOTA?
NEO的惊人数据效率并非源于压缩或蒸馏技巧,而是上述原生设计带来的表征经济性(Representational Economy):
| 维度 | 传统三段式模型(平均) | NEO-2B | 提升幅度 |
|---|---|---|---|
| 预训练图文对需求 | ≥50M(LAION + COYO + CC3M) | 5.2M | ↓90% |
| 指令微调数据量 | 2.1M高质量QA对(含多轮对话) | 210K | ↓90% |
| 单卡日吞吐(A100) | 187K tokens/sec | 312K tokens/sec | ↑67% |
| 跨模态检索零样本准确率(Flickr30K) | 82.4% | 89.7% | +7.3pp |
尤为关键的是,NEO在小样本迁移场景下展现超强鲁棒性:在仅提供100个医疗影像-报告配对样本时,其病灶定位与术语生成F1达73.5%,而同等条件下的LLaVA-1.5仅为41.2%。这印证了其表征空间天然具备更强的语义稠密性与跨域可迁移性。
四、开源即承诺:2B与9B双模型全面开放,赋能真实产业场景
商汤科技此次同步开源:
- NEO-2B:面向边缘端与移动端部署,支持INT4量化后在骁龙8 Gen3平台实现<300ms端到端响应,已集成至商汤“日日新SenseNova”智能终端SDK;
- NEO-9B:全参数开源(非蒸馏版),支持多图像输入、视频帧序列理解及3D点云粗配准,在HuggingFace与OpenI平台提供完整训练/推理Pipeline、LoRA微调模板及12个垂直领域适配脚本(含教育白板解析、工业图纸理解、农业病害诊断等)。
更值得强调的是,所有模型均采用Apache 2.0协议,允许商用、修改与再分发——此举打破多模态领域长期存在的“开源但不可商用”“模型开源但训练代码闭源”等行业潜规则。商汤AI基础模型负责人陈立表示:“真正的开源,不是交出一个‘能跑的权重文件’,而是交付一套可复现、可演进、可扎根于千行百业的技术DNA。”
五、不止于技术:NEO开启“具身智能”的新接口
NEO的深层意义,在于它悄然改写了人机交互的底层契约。当模型不再需要将世界“翻译”成语言,而是能与像素、声波、力反馈等原始信号共生共演时,“多模态”便不再是AI的附加能力,而成为其感知世界的原生感官系统。
目前,基于NEO的原型系统已在三个方向落地验证:
- 智能教具:儿童用手指圈选课本插图中“正在光合作用的叶片”,NEO实时叠加叶绿体动态示意图并语音讲解电子传递链;
- 盲文辅助生成:摄像头捕捉用户手部触摸凸点动作,同步输出触觉路径描述与三维重建,误差<0.3mm;
- 机器人远程协作:工程师语音指令“把左上角红色螺丝拧紧两圈”,NEO驱动机械臂结合实时视觉流与扭矩传感器数据完成闭环操作,无需预编程轨迹。
这或许正是NEO最富诗意的注脚:它不追求“像人一样思考”,而是努力成为人类感官与机器执行之间,那条更短、更直、更少损耗的神经通路。
结语:当“原生”成为标准,拼图时代终将落幕
NEO的发布,标志着多模态AI正从“工程集成学”迈入“认知构造学”新纪元。它提醒我们:真正的智能跃迁,往往不始于更大规模的数据洪流,而源于一次对基本假设的勇敢质疑——质疑“必须先有视觉模型,再有语言模型”,质疑“Token才是唯一真理”,质疑“模态融合只能靠后期对齐”。
开源不是终点,而是星火燎原的起点。当2B与9B模型走入开发者桌面,当PTCA注意力可视化工具被用于教学演示,当SSBS空间被用于脑机接口语义解码……那个无需翻译、不惧稀疏、能与现实世界肌肤相亲的AI,正在一行行代码中,悄然成形。
🔗 开源地址:https://github.com/SENSE-Group/NEO
📚 技术报告:《NEO: Native Multi-modal Foundation Models via Pixel-to-Token Continuity》(arXiv:2405.XXXXX)
💡 应用案例集与API接入指南详见商汤AI开放平台(open.sensetime.com)
——因为看见,所以相信;因为开源,所以共进。