今天,我们发布并开源 Kimi K2.6 模型,带来行业领先(state-of-the-art)的 代码 、 长程任务执行 和 Agent 集群 能力。
Kimi K2.6 现已上线 kimi.com 、 最新版 Kimi 应用 、 Kimi API 和 Kimi Code 编程助手,所有用户都可以开始使用。

( 完整基准测试成绩见 技术博客 )
Kimi K2.6 的通用 Agent、代码、视觉理解等综合能力得到全面提升,其中在博士级难度的完整版 人类最后的考试 (Humanity's Last Exam)、在考察模型真实软件工程能力的 SWE-Bench Pro 、评估 Agent 深度检索能力的 DeepSearchQA 等基准测试中均取得行业领先的成绩,持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro等闭源模型。
Kimi K2.6 是我们迄今最强的代码模型 ,其长程编码能力也得到显著提升,在测试中可以 不间断编码 13 小时 ,编写或修改 超过 4000 行代码 ,完成复杂系统的开发和优化。通过将代码与视觉能力的深度融合,K2.6 将代码驱动的设计能力提升到了新高度,可以交付 极具设计创意的专业级 Web 应用 。
Kimi K2.6 大幅增强了 Agent 自主化执行能力 ,帮助我们进一步扩展 Agent 的能力范围:
K2.6 在长程代码任务中的表现取得了突破,面对不同编程语言(如 Rust、Go、Python)和任务场景(如前端、运维、性能优化)均具备更可靠的泛化能力。
在涵盖了多种复杂端到端任务的、Kimi 内部严格代码评测基准 Kimi Code Bench 中,K2.6 的成绩比 K2.5 提升了约 20%。

根据我们的实测,Kimi K2.6 模型在复杂软件工程任务中,展现了强大的长程推理能力:
场景一: K2.6 成功在 Mac 本地下载并部署了 Qwen3.5-0.8B 模型,通过使用小众 Zig 语言实现并优化模型推理,证明了新模型的泛化能力。 经过 4,000 多次工具调用,超过 12 小时的不间断运行,K2.6 模型共迭代了 14 轮 ,将吞吐量从约 15 tokens/s 提升至约 193 tokens/s,最终实现 比 LM Studio 快 20% 的推理速度 。

场景二: Kimi K2.6 自主完成了对拥有 8 年历史的开源金融撮合引擎 exchange-core 的深度重构。历经 13 小时的连续作业,模型迭代了 12 套优化策略,通过 1,000 余次工具调用,对 4,000 多行代码 进行了精准修改。化身专家级系统架构师,Kimi K2.6 深入分析 CPU 及内存分配火焰图以定位隐蔽瓶颈,并大胆调整核心线程拓扑结构(由 4ME+2RE 优化为 2ME+1RE)。即便在该引擎性能已接近极限的情况下,Kimi K2.6 仍实现了 185% 的中位吞吐量跃升(由 0.43 增至 1.24 MT/s), 峰值吞吐量更是大幅提升 133% (由 1.23 飙升至 2.86 MT/s)。

我们相信,美本身就是一种生产力。K2.6 Agent 模式现在可以制作极具设计感和视觉冲击力的网站。
凭借对图像和视频生成工具的熟练调用,K2.6 Agent 能够生成视觉风格高度统一的素材,构建视觉焦点突出的首屏区(Hero Section),并且实现各种交互元素和丰富的滚动触发等动效。
K2.6 Agent 不局限于写前端页面,也支持基础的后端数据库模块,例如在生成网页中嵌入表单信息收集的功能。
凭借更强的多模态编程能力,K2.6 能够更精准地将图像和视频素材转化为代码:
我们创建了一套专门的前端开发设计评测基准( Kimi Design Bench),涵盖视觉输入任务、落地页构建、全栈应用开发以及通用 Web 开发这四个维度。对比 Google AI Studio 中的 Gemini 3 模型,基于 kimi.com 框架的 K2.6 Agent 展现出了非常明显的领先优势。

突破单体 Agent 性能的限制,才能实现 Agent 能力的规模化扩张。「Agent 集群」是我们从 K2.5 模型开始引入的新能力——动态拆解复杂任务,自主生成专项 Agent 并行处理。

在 K2.5 的基础上,K2.6 的 Agent 集群的协同能力全面升级。 Agent 集群现在可以调度不同技能特长的 Agent 互补协作 ,将搜索、深度研究、文档分析和长文创作等能力进行组合,任务完成质量相比于 K2.5 有显著提升。Agent 集群在单次运行中,就能独立完成从文档到网页、再到 PPT 和表格的多产物端到端交付。
此外,Agent 集群的架构也升级了,现在最多 支持 300 个子 Agent 并行完成 4000 个协作步骤,实现更大规模的并行化 ,进一步推高多 Agent 系统协作的能力上限。
我们看两个使用案例:
案例一: Agent 集群针对全球 100 个半导体标的设计并执行了 5 套量化策略。它将麦肯锡风格的 PPT 逻辑沉淀为可复用的技能,最终交付了详尽的建模表格和一整套汇报演示文档。
案例二: Agent 集群把一篇包含海量视觉数据的高质量天体物理论文转化为可复用的学术技能。通过提取论文的推理流程和可视化方法,系统产出了 40 页、长达 7000 字的研究论文,以及包含 2 万多条数据的结构化数据集和 14 张天文级图表。
K2.6 显著增强了 Agent 的自主化执行能力,特别是在 OpenClaw、Hermes Agent 式自动化任务中表现突出——这些场景要求 AI 能够跨应用实现 24/7 不间断运行。
与传统的对话交互不同,这类工作流需要 AI 以后台常驻 Agent 的形式主动管理任务计划、执行代码、协调跨平台操作。
我们的 RL 基础设施团队使用 基于 K2.6 的 Agent 实现了连续 5 天自主运行。 该 Agent 负责监控、故障响应和系统运维,展现了持久的上下文维持能力、多线程任务处理能力,以及从接收告警到彻底解决的全流程执行能力。以下是 K2.6 的工作日志(敏感信息已做匿名化处理):
K2.6 在实际使用中的可靠性有了切实提升:API 调用更加精准,长时间运行更加稳定,在执行复杂研究任务时的安全意识也得到了加强。

Kimi 内部的 Claw Bench 测试结果显示, K2.6 相比 K2.5 综合性能提升了 10%。 这项基准测试涵盖五大维度:编程任务、即时通讯生态集成、信息检索与分析、定时任务管理,以及记忆调用能力。在所有评测指标上,K2.6 的任务完成率和工具调用准确率均领先 K2.5,在无需人工干预、需要长时间自主运行的工作流中优势尤为显著。

借助 K2.6 模型更强的代码和视觉理解能力,现在 Kimi Agent 模式支持创建和调用技能(Skill)。
系统已内置了上百个官方推荐技能 。其中包括 Kimi 内部专家团队创建的投研技能包,通过封装机构级投资研究工作流,让用户一键生成专业排版的A股港股美股公司一页纸或者深度的投资研报,快速对一家公司上手,全方位速览公司关键基本面、行业全景和市场最关注的股价核心驱动因素。
后续我们将持续更新推荐技能库,帮助更多知识工作者实现「即插即用」,完成从找资料、理思路到出成果的全流程效率提升。
现在开始, 在 Kimi Agent 模式下输入斜杠「 / 」,就可以开始创建和调用技能了。 每个用户都可以从零开始,通过与 Kimi 对话创建技能。

但创建出真正实用的技能,仍然需要很多知识储备和专业能力,有很高的门槛。为了帮助大家把自己精心创建的文档轻松变成可复用的技能(Skill),Kimi Agent 已支持 「Office 文档转技能」:上传高质量 Office 文档,Kimi 就会尝试理解原文档的结构与风格基因,为你生成专属的可复用文档创建技能。

人类通过团队协作和组织分工,创造了互联网、做出了大模型、登上了月球,AI Agent 想要帮助人类处理现实世界的复杂难题,也必然会向团队协作和组织分工的方向进化。
「Agent 集群」是我们在 AI 自动化分工方向的探索。今天将开始探索另一个方向: 把人类和各种全天候 Agent 放在一个群组中,他们如何分工协作,完成一个人或一个 Agent 无法完成的任务?

这就是我们已开启小范围内测的 「Claw 群组」 。
「Claw群组」的目标是拥抱开放、异构的生态:多个 Agent 与人类作为真正的协作者共同运行。用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent(首批支持 OpenClaw,后续会加入对 Hermes Agent 等框架的支持),每个 Agent 可携带各自的专业工具包、技能和持久化记忆上下文。无论是部署在本地笔记本电脑、移动设备还是云端实例,这些各异的 Agent 都能进入同一个协同办公群组。
在「Claw群组」中,K2.6 担任协调者。它根据 Agent 的技能画像和可用工具动态匹配任务,实现能力的最优配置。当某个 Agent 遇到故障或停滞时,协调者会检测到中断,自动重新分配任务或生成子任务,并对 Agent 交付物的全生命周期(从启动、验证到完成)进行主动管理。
Kimi Claw 用户会陆续收到「Claw群组」的内测邀请,敬请期待。