介绍 IBM Granite 4.1 模型系列

AI 正日益成为企业应用和软件工作流的核心。但即便当今最强大的 AI 系统，也很少依赖单一模型或能力。相反，这些系统往往融合了多种技术与能力，包括语言理解、感知与检索、预测，以及严格的安全机制（例如用于危害检测的防护措施）。所有这些能力可在高度集成的 AI 工作流中协同运作。

正因如此，IBM 今日发布了 Granite 4.1 模型系列，这是其 Granite 模型家族的最新版本，充分体现了这一现实。此次发布涵盖小型语言模型（SLMs），以及 Granite 语音、视觉、嵌入和 Guardian 模型。其目标是让开发者能够轻松将这些模型集成到真实世界的企业级 AI 系统中。尽管这些模型体积较小，性能却毫不逊色。

在整个 Granite 4.1 系列中，模型在工具调用和指令遵循方面展现出卓越的语言模型性能；Granite 语音模型在转录准确率方面达到业界领先水平；Granite Guardian 提供危害检测能力；而 Granite 视觉模型在表格和图表提取任务中的排行榜表现同样出色。

Granite 4.1 的核心是一代全新的密集型、仅解码器架构语言模型，提供 30 亿、80 亿和 300 亿参数的基础模型与指令微调模型版本。在不同权重级别上，这些模型显著优于同规模的 Granite 4.0 语言模型。例如，团队发现，新的 Granite 4.1 80 亿参数指令模型在性能上 consistently 匹配甚至超越 Granite 4.0 320 亿参数的 Mixture-of-Experts 模型，同时采用更简洁（因而更灵活）的架构，便于针对下游任务进行微调。

这些模型在两项对企业至关重要的指标——指令遵循和工具调用——上，也与其他开源、密集、仅解码器架构的模型（包括最新的 Gemma 和 Qwen 模型，禁用推理功能时）表现相当。

尽管推理模型近年来日益流行，但其能力未必总是最高效的解决方案。在企业环境中，token 成本和响应速度往往与性能同等重要。因此，对于指令遵循和工具调用等特定任务，选择成本更低、非推理型但基准性能相近的模型，对企业用户而言是合理之选。

Screenshot 2026-04-28 at 5.23.42 PM.png

Granite 4.1 语言模型的性能突破，源于 IBM 的训练理念：团队优先考虑数据质量与分阶段优化，而非单纯追求数据量。Granite 4.1 模型在多个训练阶段中使用了约 15 万亿个 token，从广泛的预训练开始，逐步退火至更高质量、聚焦于指令遵循的技术、科学与数学数据。最后的几个训练阶段将模型的上下文长度扩展至高达 51.2 万个 token，确保模型能够处理长文档，而不会对短上下文任务造成性能损失。

预训练完成后，模型通过精心策划的有监督微调和多阶段强化学习（RL）流程进一步优化。每个 RL 阶段针对特定能力进行训练，例如模型遵循指令的能力、对话质量、事实准确性或数学推理能力。这有助于避免单阶段优化常带来的权衡问题。最终得到的是一族不仅用于回答问题，更能在广泛企业工作负载中可靠运行的模型。

“Granite 4.1 在不依赖长链思维的前提下，提供了具有竞争力的指令遵循和工具调用性能，具备可预测的延迟、稳定的 token 使用量和更低的运营成本，”IBM 研究院杰出工程师、Granite 语言模型首席架构师 Rameswar Panda 表示，“这使其成为企业工作负载中效率高、可靠性强的生产就绪选择。”

企业 AI 工作流处理的不仅是文本

除语言模型外，IBM 还同步发布了多个模态的更新模型，这些模态常见于端到端的 AI 系统。这些模型本身也具备强大的独立任务处理能力。

Granite Vision 4.1

新一代 Granite Vision 是一款视觉-语言模型（VLM），专为文档理解任务设计，尤其擅长理解表格、图表及键值对（KVP）提取，涵盖发票编号、日期、姓名等文档中存储的重要结构化业务信息。

“这些任务对于自动化企业流程至关重要，”IBM 研究院多模态 AI 团队研究经理 Eli Schwartz 表示，“Granite Vision 可作为前沿模型的替代方案，以极低的成本大规模执行这些任务。”

Screenshot 2026-04-28 at 9.27.06 AM.png

Granite Vision 4.1 的性能主要由两大组件驱动。其一是一种受 DeepStack 启发的特征注入方案，将视觉信息分布至多个 LLM 层，结合语义 grounding 与细粒度空间细节。其二是用于训练模型的数据集。团队结合真实示例与合成生成的 KVP、表格和图表数据，专门针对企业用例对 Granite Vision 4.1 进行训练。其训练方法与此前版本类似，但训练数据量大幅增加。结果是，该模型现已超越当前所有同规模的可用模型。

与 Granite Vision 4.1 一同发布的还有 ChartNet，这是一个百万级高质量数据集，专为稳健的图表理解而设计。ChartNet 采用新颖的代码引导增强方法创建，并用于训练 Granite Vision 4.1。

Granite Speech 4.1

除视觉模型外，IBM 研究院还发布了一系列 Granite Speech 4.1 模型。新模型引入了针对边缘用例优化的多语言语音识别与翻译模型，在吞吐量、延迟和转录丰富性之间提供不同权衡。

Granite Speech 4.1 2B 实现了 5.33% 的词错率（WER），位列 OpenASR 排行榜前茅。另有两个变体同步发布：Granite Speech 4.1 2B Plus 提供更丰富的转录功能；Granite Speech 4.1 2B NAR 则以部分功能为代价，换取显著更高的吞吐量。当前大多数 Transformer 模型均为自回归式（即逐 token 生成），而 Granite Speech 4.1 2B NAR 可一次性生成完整序列。IBM 研究院团队发现，这种新结构显著提升了 GPU 利用率与吞吐量。团队计划未来将这一格式应用于更多模型。

新语音模型延续了其前代“小身材大能量”的传统。近期，IBM 与澳大利亚皇家飞行医生服务团队合作，利用 Granite Speech 的早期版本为临床医生构建了转录引擎，用于处理飞机嘈杂环境下的语音。团队选择 Granite Speech，是因为测试表明其在背景噪声处理方面远优于其他商用模型。

Granite Guardian 4.1

此次发布的另一关键组件是 Granite Guardian 4.1。该模型是 Granite Guardian 3.3 8B 的直接替代品，基于 Granite 4.1 8B 微调而成。它在原有基础上扩展了更多风险定义，使开发者在评估模型输入与输出时获得更精细的信号。

与此前 Guardian 版本一样，它被设计为 AI 系统中的 moderator 模型，用于评估 LLM 输入与输出的安全性、质量与正确性。这使其非常适合监控面向客户的聊天机器人是否存在有害或“偏离策略”的回复，或在风险输出到达最终用户前予以标记。这种做法反映了更广泛的趋势：将安全、质量与正确性视为可由模型直接集成解决的问题，而非事后补救。

Granite Guardian 可与任何语言模型配合使用，无论其权重是开源还是专有。该 guardian 模型经过训练，可识别社会偏见内容、仇恨、辱骂或亵渎语言、幻觉、代理风险、用户试图绕过 LLM 安全控制的行为，以及 IBM AI 风险图谱中列出的其他多个维度。该模型的早期版本已在评估 Granite Guardian 等防护模型的独立基准测试中名列前茅。

Granite Embedding Multilingual R2

Granite Embedding Multilingual R2 将检索支持扩展至 200 多种语言，同时大幅提升上下文长度，实现对大型多语言文档集合的高效语义搜索。在较小规模端，9700 万参数的嵌入模型表明，通过精细剪枝与训练，即使在资源受限条件下也能实现最先进的检索性能。预计这两个模型将在 MTEB 排行榜上分别位列其规模类别的榜首或前列。

企业 AI 的综合之道

总体而言，Granite 4.1 模型系列的广泛发布，体现了对基础模型角色的系统级思考，展示了适合特定用途的小型模型如何有效解决企业实际问题。重点不仅在于让单一模型更大或更强，更在于构建模块化、高效且可治理的企业级 AI 系统，减少从研究到部署的鸿沟。

所有 Granite 4.1 模型均采用 Apache 2.0 许可证发布，彰显 IBM 研究院对开放、透明创新的承诺。无论任务涉及工具调用、指令遵循、危害检测、最先进的转录准确率，还是表格与图表提取，Granite 4.1 都旨在成为下一代企业 AI 应用的实用基础。

您可通过 watsonx、Hugging Face 等平台试用这些模型，并立即将其应用于您的企业任务。Granite 4.1 模型还针对主流开源推理运行时（包括 vLLM、SGLang 和 llama.cpp）进行了优化，支持在云端与本地环境中灵活部署。

介绍 IBM Granite 4.1 模型系列

内容

企业 AI 工作流处理的不仅是文本

企业 AI 的综合之道

评论

摘要