4 月 23 日,腾讯混元 Hy3 preview 语言模型发布并开源。这是一个快慢思考融合的混合专家模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。
今年 2 月,我们重建了预训练和强化学习的基础设施,以及模型追求实用性的三个原则:
Hy3 preview 是我们重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。
推理能力是模型解决各种问题的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考(26春)和全国中学生生物学联赛(CHSBO 2025)中取得优异成绩,展现出可泛化的强推理能力。

在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则,是模型的首要挑战。基于我们业务场景的灵感,我们提出了 CL-bench 和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。

代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,我们以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等主流搜索智能体基准中取得了强竞争力的结果。




在数字世界中,代码关注的是模型在开发环境中的执行能力,搜索则聚焦于开放信息空间中的检索、筛选与整合能力,两者共同决定了模型在复杂智能体场景(例如 OpenClaw)中是否真正具备可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等评测中表现突出,进一步表明我们的智能体能力的全面与实用性。

除了公开榜单,我们进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程任务集 Hy-Backend,贴近真实用户开发交互的 Hy-Vibe Bench,还是高难度软件工程开发任务集 Hy-SWE Max 上,Hy3 preview 均体现出了强竞争力。

比较各个开源模型的大小与智能体综合表现,Hy3 preview 展现出高性价比。

在探索智能上限的同时,我们始终关注模型与人的交互和对人的理解。为此,我们与元宝团队进行了深度的合作,使用 URM (User-Feedback RM) 对用户的真实反馈进行建模,并结合 RLHF 技术进行了细粒度的优化。结合推理、长文、指令、智能体等能力的优化,这带来了用户体验的大幅提升:Hy3 preview 的事实性错误显著降低,能更精准理解用户的模糊意图和碎片化的输入,回复风格更加共情,内容更具深度。在元宝的灰度测试上,我们看到 Hy3 preview 在元宝用户活跃度上较之前模型实现了大幅增长。
在闲聊场景中,Hy3 preview 更能理解用户的倾诉意图,用简洁且有温度的方式承接用户情绪,避免冗长的咨询建议式回复
Hy3 preview 已在元宝、CodeBuddy、WorkBuddy 、QQ、ima、QQ浏览器、腾讯文档、腾讯乐享上线,并在微信公众号、腾讯新闻、腾讯自选股、和平精英、腾讯客服等多个产品陆续上线中。另外,Hy3 preview 已支持流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等。
Hy3 preview研发过程中,混元与元宝进行了深度Co-Design。一方面针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同,为用户带来了更智能且更具“活人感”的交互体验。
Hy3 preview 的模型权重、代码已在GitHub、HuggingFace、ModelScope、GitCode等平台开源,支持vLLM、SGLang 等主流推理框架,开发者可以直接下载使用。
得益于模型架构和推理框架的深度协同,以及我们在推理框架、算子性能、量化算法等方面的优化,Hy3 preview 的成本相比上一代模型大幅下降。在腾讯云上,我们推出了有竞争力的API 价格和 Token Plan,个人版 Token Plan 定价最低 28 元/月。


Hy3 preview 是我们重建的第一步。虽然模型效果已经取得了巨大进步,但仍存在一些已知问题,比如工具调用中的错误恢复能力不足,以及对推理超参数敏感。我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯更多产品的深入协同,持续改进模型在真实场景中的实用性并探索差异化能力。
