MiniMax M2.1 测评:国产编程模型实测

TLDR

MiniMax M2.1 是国产编程模型中实测表现较好的一款。VIBE 基准 88.6 分接近 Claude Opus 4.5,在 Claude Code、Cline 等工具中可用。实测原型生成、UI 美学能力、后端 API 开发、管理后台生成均达到可用状态。优点是工具调用规范、workflow 遵守好、响应简洁。

关键数据

维度 M2.1 表现
VIBE 综合得分 88.6 分(接近 Opus 4.5)
SWE-bench Verified 持平/超越 Claude Sonnet 4.5
多语言能力 超 Sonnet 4.5、 Gemini 3 Pro
Agent 框架兼容性 Claude Code、Cline、Kilo Code、Roo Code

官方能力概览

编程语言能力

M2.1 系统性提升了以下语言的表现:

官方定位为”业内领先水平”,覆盖从底层系统到应用层开发的完整链路。

WebDev 与 AppDev

针对移动端开发短板,M2.1 加强了原生 Android / iOS 开发能力。同时提升了 Web 与 App 场景的设计理解与美学表达能力,官方称可推动 vibe coding 成为可持续、可交付的生产实践。

复合指令约束

作为开源模型中率先系统性引入 Interleaved Thinking 的系列,M2.1 的 systematic problem-solving 能力升级,关注模型对”复合指令约束”的整合执行能力,在真实办公场景可用性提升。

响应效率

相比 M2,模型回复和思维链更简洁,Token 消耗下降,在 AI Coding 与 Agent 驱动的连续工作流中更流畅。

Agent 框架兼容性

在 Claude Code、Droid(Factory AI)、Cline、Kilo Code、Roo Code、BlackBox 等工具中表现一致稳定。对 Skill.md、Claude.md / agent.md / cursorrule、Slash Command 等 Context Management 机制提供可靠支持。

基准测试表现

M2.1 模型能力概览

软件工程榜单

基准测试概览

在 SWE-bench Verified 测试中,M2.1 在不同 coding agent 框架上表现稳定。在测试用例生成、代码性能优化、代码审阅(SWE-Review)、指令遵从(OctoCodingBench)等场景相比 M2 全面提升,持平或超过 Claude Sonnet 4.5。

SWE-bench Verified 测试结果

VIBE 基准测试

VIBE (Visual & Interactive Benchmark for Execution in Application Development) 涵盖 Web、仿真、Android、iOS 及后端五大子集,通过 Agent-as-a-Verifier (AaaV) 范式评估生成应用在真实运行环境中的交互逻辑与视觉美感。

VIBE:https://huggingface.co/datasets/MiniMaxAI/VIBE

VIBE 基准测试结果

MiniMax-M2.1 在 VIBE 综合榜单中平均 88.6 分,展现接近 Claude Opus 4.5 的全栈构建能力,在几乎所有子集上显著优于 Claude Sonnet 4.5。

办公场景能力

办公场景能力提升


实测:原型生成

先测一下原型生成能力。丢了个潮玩盲盒电商 app 的需求给它。

潮玩盲盒电商 App 原型生成截图 1

潮玩盲盒电商 App 原型生成截图 2

生成效果怎么说呢,和 gemini3 一个梯队,比 claude sonnet4.5/opus4.5、gpt5.2 效果都要好。

盲盒星球 App 运行效果 1

盲盒星球 App 运行效果 2

盲盒星球 App 运行效果 3

盲盒星球 App 运行效果 4

盲盒星球 App 运行效果 5

原型图拿出来可以直接和产品对,沟通清楚功能之后,选 expo / react native 就能直接写 app 了,做小程序直接选 taro。

再测一个,类似小宇宙的播客 app。

小宇宙播客 App 原型生成截图 1

小宇宙播客 App 原型生成截图 2

一次生成效果也不错,对完功能和业务逻辑就能进二开了。

小宇宙播客 App 运行效果


实测:后端 API 开发

继续测试,给了个 feed 后端 api 的需求。

Feed API 生成截图 1

Feed API 生成截图 2

开了 claude code yolo 模式之后,直接不用管了,自己在那吭哧吭哧开发、跑测试、修 bug。

Feed API 开发完成

Feed API 测试通过

确实牛,完全托管开发。跑了个 e2e 检查,api 全都能用。

Feed API E2E 测试


实测:Admin 页面

api 搞完了,那顺便生成个 admin 页面吧。

Admin 页面生成 - askUserQuestion 调用

直接调用了 askUserQuestion tools 让我选技术方案,丝滑,和 claude 用起来没区别。

Admin 页面生成 - /dev 工作流触发

回车确认之后,它主动调了我的 /dev 工作流。

哇塞,这个是真的惊讶。sonnet4.5 有时候都不一定会这么遵守提示词,opus4.5 就更不用说了,基本上不爱遵守。

Admin 页面生成 - 开始 Coding

回车之后直接开始 coding,等一会就开发完了。

Admin 页面开发完成

跑起来看看效果。

Admin Dashboard 运行效果 1

Admin Dashboard 运行效果 2

Admin 页面 E2E 测试 1

Admin 页面 E2E 测试 2

Admin 页面 E2E 测试 3

效果挺 nice 的。


优缺点

好的地方

维度 表现
原型生成 一次生成能达到可用状态,代码结构清晰
后端开发 全自动流程,测试验证完整
工具调用 规范使用 askUserQuestion 等工具
workflow 遵守 主动调用 /dev 工作流,符合预期
响应简洁 token 消耗较低,响应速度较快
UI 美学能力 接近 Gemini3 水平

还差点意思的地方

维度 情况
skills 对 skills 支持一般,没有主动调用 codeagent,但明确要求会调用
系统架构 和 sonnet4.5 的软件架构能力存在差距
多模态 不是多模态模型,识别图片依赖 mcp

总结

MiniMax M2.1 是国产编程模型里实测表现较好的一款。VIBE 基准 88.6 分,接近 Claude Opus 4.5 水平。

在 Claude Code 里用起来挺正常的,工具调用规范,workflow 遵守得好。日常开发替 sonnet4.5 用没问题,但复杂的系统架构需求还是得 sonnet4.5 或 opus4.5 上。