今天,我们正式发布 Gemma 4——这是我们目前最智能的开源模型。该模型专为高级推理和智能体(agentic)工作流而设计,在单位参数量所体现的智能水平上实现了前所未有的突破。这一成果建立在令人振奋的社区发展势头之上:自第一代模型发布以来,开发者已累计下载 Gemma 超过 4 亿次,构建了拥有逾 10 万种变体的活跃Gemmaverse生态。我们认真倾听创新者对下一代 AI 技术的期待,Gemma 4 正是我们的回应:在 Apache 2.0 许可证下,以广泛可及的方式提供突破性能力。

根据 Arena.ai 聊天竞技场数据(截至 4月1日),开源模型在不同规模下的性能表现对比。
Gemma 4 基于与 Gemini 3 相同的世界级研究和技术构建,是可在您硬件上运行的最强大模型系列。它与我们现有的 Gemini 模型形成互补,为开发者提供了业界最强大的开源与专有工具组合。
我们推出四种灵活尺寸的 Gemma 4 模型:有效 2B(E2B)、有效 4B(E4B)、26B 专家混合模型(MoE) 和 31B 稠密模型(Dense)。整个模型家族已超越简单的对话交互,能够处理复杂的逻辑推理和智能体工作流。其中较大规模的模型在其尺寸类别中均达到顶尖性能水平:31B 模型目前在行业标准Arena AI 文本排行榜上位列全球第三大开源模型,26B 模型则位居第六名。更值得注意的是,Gemma 4 能以远小于自身 20 倍的参数量击败更大规模的竞品模型。对于开发者而言,这种“单位参数智能”的新高度意味着只需显著更低的硬件开销即可实现前沿级别的能力。
在边缘端,我们的 E2B 和 E4B 模型重新定义了设备本地的实用价值,优先考虑多模态处理能力、低延迟处理和无缝生态系统集成,而非单纯追求参数量。
为了推动下一代开创性研究与应用的发展,我们特别针对各类硬件优化了 Gemma 4 模型的运行与微调效率——从全球数十亿台 Android 设备,到笔记本电脑 GPU,直至开发者工作站和加速计算平台。
通过使用这些高度优化的模型,您可以对 Gemma 4 进行微调,从而在特定任务上实现顶尖性能。我们已经看到这一方法取得了惊人成果:例如 INSAIT 团队创建了首个保加利亚语优先的语言模型(BgGPT),我们还与耶鲁大学合作开发了Cell2Sentence-Scale,用于发现癌症治疗的新路径,此类成功案例不胜枚举。
以下是 Gemma 4 成为我们迄今最强大开源模型家族的关键特性:
我们针对不同硬件平台和使用场景发布了多款 Gemma 4 模型权重版本,确保无论何时何地都能获得前沿级别的推理能力:
针对研究人员和开发者的可访问性硬件进行了优化,我们的非量化 bfloat16 权重可高效部署于单张 80GB NVIDIA H100 GPU 上。对于本地部署环境,量化版本可直接在消费级 GPU 上原生运行,为您的 IDE、编程助手及智能体工作流提供支持。我们的 26B 专家混合模型(MoE)专注于降低延迟,在推理过程中仅激活其总参数量的 38 亿个,从而实现极高的每秒 token 生成速度;而 31B 稠密模型则致力于最大化原始质量,并为后续微调提供强大基础。

这些模型经过大量数据集与评估指标的综合测试,全面覆盖文本生成的各个方面。更多基准测试结果请参见我们的模型卡片。
从底层架构开始就针对最大化的计算与内存效率进行设计,这些模型在推理时分别激活相当于 20 亿与 40 亿参数的效果,从而有效节省 RAM 与电池消耗。通过与 Google Pixel 团队及高通技术公司、联发科等移动硬件领导厂商紧密协作,这些多模态模型可在手机、树莓派、NVIDIA Jetson Orin Nano 等边缘设备上实现近乎零延迟的完全离线运行。Android 开发者现已可通过AICore 开发者预览版直接原型化智能体流程,并与即将发布的 Gemini Nano 4 保持向前兼容。
您提出了宝贵意见,我们认真采纳。构建 AI 的未来需要协作精神,我们相信应通过开放赋能开发者生态,消除限制性障碍。正因如此,Gemma 4 采用商业友好的 Apache 2.0 许可证发布。
这一开源许可为基础提供了完整的开发者灵活性保障与数字主权支持,赋予您对数据、基础设施和模型的全权控制。它使您能够在任何环境中自由构建并安全部署,无论是在本地数据中心还是云端。
在 Hugging Face 首日即上线 Gemma 4 系列,这标志着一个重大里程碑。我们对此深感兴奋。” —— 克莱芒・德朗格,Hugging Face 联合创始人兼首席执行官
这些模型均接受与我们专有模型相同的严格基础设施安全协议审查。选择 Gemma 4,企业和主权机构将获得值得信赖、透明可靠的基石,既能享受顶尖技术水平,又能满足最高标准的安全性与可靠性要求。