智谱发布0.9B 轻量级 GLM-OCR:性能登顶，千次处理仅需0.1元

2026-02-09 作者：技术PP虾浏览量：66

在人工智能飞速发展的今天，文档理解与光学字符识别（OCR）技术已成为企业数字化转型的关键一环。然而，传统OCR模型往往面临着“两难”困境：要么模型过于庞大，部署成本高昂；要么模型过于轻量，难以应对复杂的文档版面。近日，智谱AI正式发布了开源的专业——GLM-OCR .9B，以仅.9B（9亿）的超轻参数量，实现了性能的跨级突破，为行业带来了颠覆性的解决方案。

一、小而美：.9B 参数的“轻量级”革命

M-OCR .9B 的最大亮点在于其极致的轻量化设计。在当前动辄千亿参数的大模型时代，智谱AI选择了一条“小而精”的技术路线。.9B 的参数量意味着模型对硬件资源的要求极，不仅可以在普通的服务器上高效运行，甚至具备了在端侧设备（如高性能笔记本、边缘计算盒子）上部署的潜力。

这种轻量化设计直接带来了两大优势：低延迟与高并发。模型体积的缩减使得推理速度大幅提升，能够满足实时性要求极高的业务场景。同时，更低的显存占用让单张显卡能够处理更多的并发请求，极大地提升了硬件资源的利用率。

二、性能登顶：跨级挑战通用大模型

虽然身材“迷你”，但 GLM-OCR .9B 的能力却不容小觑。根据官方公布的数据，在权威的 OmniDocBench V1.5 榜单中，GLM-OCR .9B 以 94.6 分的惊人成绩夺冠，一举超越了众多专用OCR模型。

更瞩目的是，其性能表现已经极度逼近谷歌的通用大模型 Gemini-1.5-Pro（注：行业内通常对比的顶级模型）。这一成绩证明了智谱在模型压缩与蒸馏技术上的深厚功底。GLM-OCR .9B 不再局限于简单的文字识别，它具备了深度的文档理解能力，能够精准地解析复杂的版面结构，多栏排版、表格、印章以及手写体等，有效解决了传统OCR在复杂文档解析上的痛点。

三、极致性价比：千次处理仅需 .1 元

对于企业用户而言，除了性能，成本也是技术选型的核心考量。智谱AI此次不仅在技术上实现了突破，更在定价上展现了极大的诚意。

GLM-OCR .9B 将OCR的处理成本压缩到了极致——千次处理仅需 .1 元。这一价格远低于行业平均水平，甚至比许多传统的OCR API服务还要便宜一个数量级。对于需要处理海量文档的金融、法律政务等行业来说，这意味着原本高昂的数据清洗成本将大幅下降，使得大规模文档数字化成为可能。

四、技术：端到端的文档理解

GLM-OCR .9B 之所以能取得如此成绩，得益于其基于智谱 GLM 基座模型的强大基因。不同于传统的“检测+识别”两阶段线方案，GLM-OCR 采用了更先进的端到端架构。这种架构让模型在识别文字的同时，能够更好地理解上下文语义和版面逻辑，从而在处理弯曲文字、模糊图像、复杂背景等“硬骨头”场景时，表现出更强的鲁棒性。

此外，智谱AI宣布将 GLM-OCR 开源，这一举措无疑将降低开发者的门槛。开发者可以基于该模型进行微调，快速开发出适应特定行业场景（如处方识别、发票录入等）的专属应用，进一步推动OCR技术在各行各业的落地。

五、结语：重塑文档处理新格局

智谱AI发布的 GLM-OCR .9B，不仅仅是一个新模型的诞生，更是对现有OCR的一次有力冲击。它用事实证明，小参数模型通过精心的架构设计和数据训练，完全可以达到媲美模型的性能。

凭借“.9B轻量级”、“94.6分登顶成绩”以及“.1元极致成本”这三张王牌，GLM-OCR 必将在文档理解领域掀起一股新的技术浪潮，为企业数字化转型提供更高效、更经济的底层支持。未来，我们期待看到更多基于 GLM-OCR 的创新应用涌现，让AI触手可及。

智谱发布0.9B 轻量级 GLM-OCR:性能登顶，千次处理仅需0.1元

一、 小而美：.9B 参数的“轻量级”革命

二、 性能登顶：跨级挑战通用大模型

三、 极致性价比：千次处理仅需 .1 元

四、 技术：端到端的文档理解

五、 结语：重塑文档处理新格局

一、小而美：.9B 参数的“轻量级”革命

二、性能登顶：跨级挑战通用大模型

三、极致性价比：千次处理仅需 .1 元

四、技术：端到端的文档理解

五、结语：重塑文档处理新格局