MiniMax M2.7:自我进化的早期回响

4
分类业界资讯
作者MiniMax
来源跳转
发表时间

内容

在M2系列模型首次发布后的几个月里,我们收到了来自热情的用户和开发者的大量反馈和建议,这促使我们进一步加快了模型迭代的效率。随着人类生产力已经得到充分释放,自然下一步是启动模型和组织的自我进化。M2.7是我们第一个深度参与自身进化的模型。

M2.7能够构建复杂的代理框架并完成高度复杂的生产力任务,利用代理团队、复杂技能和动态工具搜索等功能。例如,在开发M2.7时,我们让模型更新自己的记忆并构建数十个复杂的技能,以帮助进行强化学习实验。我们还让模型根据实验结果改进其学习过程和框架。这个过程启动了模型自我进化的循环。

  1. M2.7在现实世界的软件工程方面表现出色,包括端到端的完整项目交付、日志分析、错误排查、代码安全、机器学习等。在SWE-Pro基准测试中,M2.7得分56.22%,接近Opus的最佳水平。这种能力也延伸到端到端的完整项目交付场景(VIBE-Pro 55.6%)和在终端基准2上对复杂工程系统的深入理解(57.0%)。

  2. 我们还在专业办公软件领域的各种领域增强了模型的专长和任务交付能力。它在GDPval-AA上的ELO得分为1495,是所有开源模型中最高的。M2.7在Office套件——Excel、PPT和Word中的复杂编辑能力显著提高——能够更好地处理多轮修订和高保真编辑。M2.7能够与复杂环境交互:在与40多个复杂技能(每个超过2,000个标记)合作时,它保持了97%的技能遵守率。

  3. M2.7表现出出色的角色一致性和情感智能,为产品创新开辟了更多空间。

基于这些能力,M2.7也在显著加速我们自身向AI原生组织的进化。

MiniMax M2.7基准概览

构建用于模型自我进化的代理

我们首先分享一个内部工作流程,使M2系列模型能够自我进化。这个工作流程也是探索代理能力的边界的一次尝试。

现代代理框架利用复杂的技能、记忆和其他外部模块来提高其对各种工作环境的适应性。在MiniMax,我们的代理经常面临跨越多个部门的非常复杂和不同的工作环境。因此,为了提高代理在这些异构环境中的鲁棒性,我们让M2.7的一个内部版本构建了一个与研究项目小组交互和协作的研究代理框架。该框架支持数据管道、训练环境、基础设施、跨团队协作和持久记忆——使研究人员能够推动其交付更好的模型。研究代理框架在研究人员设定的指导下驱动产生下一代模型的迭代周期。

一个例行的流程是我们的RL团队的日常工作。研究人员首先与代理讨论实验想法,代理帮助进行文献综述,跟踪预设的实验规范,管道数据和工件,并启动实验。在实验过程中,代理监控和分析实验的进度,并自动触发日志读取、调试、指标分析、代码修复、合并请求和冒烟测试,识别和配置微妙但关键的更改。这些以前可能需要来自不同团队的多个人类研究人员合作,但现在人类研究人员只参与关键决策和讨论。这加速了问题发现和实验,更快地交付模型。在这里,M2.7能够处理30%-50%的工作流程。

研究代理框架架构

在迭代过程中,我们意识到模型递归进化其自身框架的能力也很重要。我们的内部框架自主收集反馈,为内部任务建立评估集,并在此基础上不断迭代其自身的架构、技能/MCP实现和内存机制,以更好地更有效地完成任务。

例如,我们让M2.7优化模型在内部支架上的编程性能。M2.7完全自主运行,执行了一个超过100轮的迭代循环:"分析失败轨迹→计划更改→修改支架代码→运行评估→比较结果→决定是否保留或回滚更改"。在这个过程中,M2.7发现了模型的有效优化:系统地搜索采样参数(如温度、频率惩罚和存在惩罚)的最优组合;为模型设计更具体的工作流程指南(例如,在修复后自动在其他文件中搜索相同的错误模式);并向支架的代理循环添加循环检测和其他优化。最终,这在内部评估集上实现了30%的性能提升。

我们相信未来的AI自我进化将逐渐转向完全自主,协调数据构建、模型训练、推理架构、评估等阶段而无需人工参与。

为此,我们在低资源场景中进行了初步的探索性测试。我们让M2.7参加了OpenAI开源的MLE Bench Lite级别的22个机器学习竞赛。这些竞赛可以在单个A30 GPU上运行,但它们涵盖了机器学习工作流程的所有阶段。

我们设计和实现了一个简单的框架来指导代理进行自主优化。核心模块包括三个组件:短期记忆、自我反馈和自我优化。具体来说,在每个迭代轮次之后,代理生成一个短期记忆markdown文件,同时对自己的当前轮次结果进行自我批评,从而为下一轮提供潜在的优化方向。下一轮然后根据所有先前轮次的记忆和自我反馈链进行进一步的自我优化。我们总共运行了三次试验,每次有24小时的迭代进化时间。从下图可以看出,M2.7训练的ML模型随着时间的推移持续获得更高的奖牌率。最后,最好的运行获得了9枚金牌、5枚银牌和1枚铜牌。三次运行的平均奖牌率为66.6%,仅次于Opus-4.6(75.7%)和GPT-5.4(71.2%),与Gemini-3.1(66.6%)并列。

MLE Bench Lite性能图表

专业软件工程

在软件工程任务中,M2.7更深入地探索了现实世界的编程能力,包括错误查找的日志分析、重构、代码安全、机器学习、Android开发等。

以一个常见的生产场景为例:实时环境中的调试。这不仅需要代码生成,还需要强大的综合推理能力。当面对生产警报时,M2.7可以将监控指标与部署时间表相关联,进行因果推理,对跟踪采样进行统计分析并提出精确假设,主动连接到数据库验证根本原因,确定代码存储库中缺失的索引迁移文件,甚至具有使用非阻塞索引创建首先停止出血然后再提交合并请求的意识。从可观察性分析和数据库专业知识到SRE级别决策——这不仅是一个可以编写代码的模型,而且是一个真正理解生产系统的模型。与使用M2.7相比,传统的手动故障排除过程多次将实时生产系统事件的恢复时间缩短到三分钟以下。

▶ 您的浏览器不支持视频回放。请切换到不同的浏览器。

实时生产环境调试

在原始编程能力方面,M2.7已达到SOTA模型水平。在涵盖多种编程语言的SWE-Pro上,M2.7达到了56.22%的准确率,与GPT-5.3-Codex相匹配。它在更接近现实世界工程场景的基准测试上表现出更显著的竞争优势,例如SWE Multilingual(76.5)和Multi SWE Bench(52.7)。

这种能力也扩展到端到端的完整项目交付场景。在仓库级代码生成基准VIBE-Pro上,M2.7得分55.6%,与Opus 4.6几乎持平——这意味着无论需求涉及Web、Android、iOS还是模拟任务,都可以直接交给M2.7完成。

更值得关注的是它对复杂工程系统的深入理解。在Terminal Bench 2(57.0%)和NL2Repo(39.8%)上,两者都要求高度的系统集成理解,M2.7也表现出色。这进一步证实它不仅擅长代码生成,还能深入理解软件系统的操作逻辑和协作动态。

▶ 您的浏览器不支持视频回放。请切换到不同的浏览器。

由M2.7生成的WildGuard演示网页

为了提高开发效率,一个特别重要的功能是本地Agent Teams(多代理协作)。Agent Teams对模型提出了范式级别的要求:角色边界、对抗性推理、协议遵守和行为差异化——这些不能仅通过提示来实现,而必须内化为模型的本地能力。在Agent Teams场景中,模型需要稳定地锚定其角色身份,主动挑战队友的逻辑和伦理盲点,并在复杂状态机中做出自主决策。以下是我们在内部用于产品开发的原型设置,其中包含构建产品原型的最小组织。

研究代理框架架构

Agent Teams多代理协作演示

专业工作

除了软件工程外,代理在办公场景中变得越来越有用。我们认为这归结为两个核心能力:

领域专长和任务交付能力。模型需要在各个领域拥有专业知识并理解用户需求。在衡量这种能力的GDPval-AA评估中,M2.7在45个模型中获得了1495分的ELO分数,仅次于Opus 4.6、Sonnet 4.6和GPT5.4,超过了GPT5.3。对于最常见的办公文档处理任务,我们系统地优化了模型处理Word、Excel和PPT的能力。在各种代理框架中,M2.7既可以基于模板和技能直接生成文件,也可以遵循用户的交互指令对现有文件进行多轮高保真编辑,最终生成可编辑的交付物。

与复杂环境交互的能力。广义的日常场景意味着模型必须灵活适应各种上下文,调用多样化的技能和工具,并在长时间交互中保持稳定的指令遵守。M2.7在这方面取得了实质性改进。在Toolathon上,M2.7达到了46.3%的准确率,达到全球顶级水平。真实工作场景中的代理框架通常也需要理解和调用大量复杂技能。在MM Claw测试中,M2.7在40个复杂技能(每个超过2,000个标记)中保持了97%的技能合规率。

我们在金融领域测试了模型的专业熟练度,与上一代相比,能力的提高是显著的。例如,在一个涉及阅读研究报告并为公司未来收入建模的场景中,M2.7可以自主阅读公司的年度报告和收益电话会议记录,交叉参考多个研究报告,独立设计假设并建立收入预测模型,然后基于模板生成PPT和研究报告——像初级分析师一样理解、做出判断并产生输出,同时通过多轮交互进行自我纠正。从业者的反馈是输出已经可以作为初稿直接使用,进入后续工作流程。以下是台积电的一个例子。

任务:基于台积电的年度报告和收益电话会议信息,为台积电建立一个收入模型。阅读多个研究报告,设计相应的假设,根据最新信息对台积电的收入进行建模,然后基于PPT模板生成PPT,并撰写Word文档研究报告。

▶ 您的浏览器不支持播放此视频,请更换浏览器。

最近OpenClaw的流行代表了蓬勃发展的代理生态系统,我们很高兴我们的M2系列模型为社区的繁荣做出了贡献。基于OpenClaw中常用的任务,我们构建了一个名为MM Claw的评估集,涵盖了工作和生活中广泛的现实需求——从个人学习计划到办公文档处理和交付,计划的专业研究和投资建议,以及代码开发和维护。M2.7在这个测试中达到了接近Sonnet 4.6的水平,准确率为62.7%。

娱乐

随着OpenClaw和类似的个人代理,我们注意到除了完成工作外,许多用户也希望模型具有高情商和角色一致性。有了人设,用户开始像朋友一样与OpenClaw互动。我们认为这为将代理模型的使用从纯粹的生产力扩展到交互式娱乐提供了机会。为此,我们在M2.7中加强了角色一致性和对话能力。

基于此,我们构建了一个初步演示:OpenRoom,一个基于代理框架的交互系统,它将AI交互从纯文本流中解放出来,并将其放置在一个Web GUI空间中,其中一切都是交互式的。在这里,角色设置不再是冷冰冰的提示块;对话驱动体验,生成实时视觉反馈和场景交互,角色主动与环境互动。我们认为这个框架极具可扩展性,可以随着代理能力的改进和社区发展继续进化,探索人类和代理互动的全新方式。

为了鼓励在这一领域的探索,我们已经开源了初始演示(其中大部分代码是由AI编写的):

▶ 您的浏览器不支持视频回放。请切换到不同的浏览器。

MiniMax M2.7现已在MiniMax Agent和MiniMax API平台上全面可用。我们期待用户和开发者探索M2.7的更多有趣用例。

MiniMax Agent: agent.minimax.io

API: platform.minimax.io

编码方案: platform.minimax.io/subscribe/coding-plan

人人都有智慧。

评论

(0)
未配置登录方式
暂无评论