MiniMax M2.1 测评：国产编程模型实测

TLDR

MiniMax M2.1 是国产编程模型中实测表现较好的一款。VIBE 基准 88.6 分接近 Claude Opus 4.5，在 Claude Code、Cline 等工具中可用。实测原型生成、UI 美学能力、后端 API 开发、管理后台生成均达到可用状态。优点是工具调用规范、workflow 遵守好、响应简洁。

关键数据：

维度	M2.1 表现
VIBE 综合得分	88.6 分（接近 Opus 4.5）
SWE-bench Verified	持平/超越 Claude Sonnet 4.5
多语言能力	超 Sonnet 4.5、 Gemini 3 Pro
Agent 框架兼容性	Claude Code、Cline、Kilo Code、Roo Code

官方能力概览

编程语言能力

M2.1 系统性提升了以下语言的表现：

底层系统语言：Rust、C++、Objective-C
后端语言：Java、Golang、Kotlin
前端语言：TypeScript、JavaScript

官方定位为”业内领先水平”，覆盖从底层系统到应用层开发的完整链路。

WebDev 与 AppDev

针对移动端开发短板，M2.1 加强了原生 Android / iOS 开发能力。同时提升了 Web 与 App 场景的设计理解与美学表达能力，官方称可推动 vibe coding 成为可持续、可交付的生产实践。

复合指令约束

作为开源模型中率先系统性引入 Interleaved Thinking 的系列，M2.1 的 systematic problem-solving 能力升级，关注模型对”复合指令约束”的整合执行能力，在真实办公场景可用性提升。

响应效率

相比 M2，模型回复和思维链更简洁，Token 消耗下降，在 AI Coding 与 Agent 驱动的连续工作流中更流畅。

Agent 框架兼容性

在 Claude Code、Droid（Factory AI）、Cline、Kilo Code、Roo Code、BlackBox 等工具中表现一致稳定。对 Skill.md、Claude.md / agent.md / cursorrule、Slash Command 等 Context Management 机制提供可靠支持。

基准测试表现

M2.1 模型能力概览

软件工程榜单：

基准测试概览

在 SWE-bench Verified 测试中，M2.1 在不同 coding agent 框架上表现稳定。在测试用例生成、代码性能优化、代码审阅（SWE-Review）、指令遵从（OctoCodingBench）等场景相比 M2 全面提升，持平或超过 Claude Sonnet 4.5。

SWE-bench Verified 测试结果

VIBE 基准测试：

VIBE (Visual & Interactive Benchmark for Execution in Application Development) 涵盖 Web、仿真、Android、iOS 及后端五大子集，通过 Agent-as-a-Verifier (AaaV) 范式评估生成应用在真实运行环境中的交互逻辑与视觉美感。

VIBE：https://huggingface.co/datasets/MiniMaxAI/VIBE

VIBE 基准测试结果

MiniMax-M2.1 在 VIBE 综合榜单中平均 88.6 分，展现接近 Claude Opus 4.5 的全栈构建能力，在几乎所有子集上显著优于 Claude Sonnet 4.5。

办公场景能力：

办公场景能力提升

实测：原型生成

先测一下原型生成能力。丢了个潮玩盲盒电商 app 的需求给它。

潮玩盲盒电商 App 原型生成截图 1

潮玩盲盒电商 App 原型生成截图 2

生成效果怎么说呢，和 gemini3 一个梯队，比 claude sonnet4.5/opus4.5、gpt5.2 效果都要好。

盲盒星球 App 运行效果 1

盲盒星球 App 运行效果 2

盲盒星球 App 运行效果 3

盲盒星球 App 运行效果 4

盲盒星球 App 运行效果 5

原型图拿出来可以直接和产品对，沟通清楚功能之后，选 expo / react native 就能直接写 app 了，做小程序直接选 taro。

再测一个，类似小宇宙的播客 app。

小宇宙播客 App 原型生成截图 1

小宇宙播客 App 原型生成截图 2

一次生成效果也不错，对完功能和业务逻辑就能进二开了。

小宇宙播客 App 运行效果

实测：后端 API 开发

继续测试，给了个 feed 后端 api 的需求。

Feed API 生成截图 1

Feed API 生成截图 2

开了 claude code yolo 模式之后，直接不用管了，自己在那吭哧吭哧开发、跑测试、修 bug。

Feed API 开发完成

Feed API 测试通过

确实牛，完全托管开发。跑了个 e2e 检查，api 全都能用。

Feed API E2E 测试

实测：Admin 页面

api 搞完了，那顺便生成个 admin 页面吧。

Admin 页面生成 - askUserQuestion 调用

直接调用了 askUserQuestion tools 让我选技术方案，丝滑，和 claude 用起来没区别。

Admin 页面生成 - /dev 工作流触发

回车确认之后，它主动调了我的 /dev 工作流。

哇塞，这个是真的惊讶。sonnet4.5 有时候都不一定会这么遵守提示词，opus4.5 就更不用说了，基本上不爱遵守。

Admin 页面生成 - 开始 Coding

回车之后直接开始 coding，等一会就开发完了。

Admin 页面开发完成

跑起来看看效果。

Admin 页面 E2E 测试 1

Admin 页面 E2E 测试 2

Admin 页面 E2E 测试 3

效果挺 nice 的。

优缺点

好的地方

维度	表现
原型生成	一次生成能达到可用状态，代码结构清晰
后端开发	全自动流程，测试验证完整
工具调用	规范使用 askUserQuestion 等工具
workflow 遵守	主动调用 /dev 工作流，符合预期
响应简洁	token 消耗较低，响应速度较快
UI 美学能力	接近 Gemini3 水平

还差点意思的地方

维度	情况
skills	对 skills 支持一般，没有主动调用 codeagent，但明确要求会调用
系统架构	和 sonnet4.5 的软件架构能力存在差距
多模态	不是多模态模型，识别图片依赖 mcp

总结

MiniMax M2.1 是国产编程模型里实测表现较好的一款。VIBE 基准 88.6 分，接近 Claude Opus 4.5 水平。

在 Claude Code 里用起来挺正常的，工具调用规范，workflow 遵守得好。日常开发替 sonnet4.5 用没问题，但复杂的系统架构需求还是得 sonnet4.5 或 opus4.5 上。