2025年6月17日凌晨,总部位于上海的 AI 独角兽企业 MiniMax(上海稀宇科技有限公司)发布了自主研发的“全球首个开源的大规模混合架构推理模型”MiniMax - M1。 模型优势长文本处理能力强:支持100万 token 上下文窗口,是国内另一开源强手 DeepSeek R1(12.8万 Token)的近8倍,同时支持8万 Token 推理输出,为处理复杂文档分析、长篇代码生成等任务提供了可能性。成本优势明显:训练成本仅为53.74万美元,约合380万元人民币。在进行8万 Token 的深度推理时,M1所需的算力仅为国内另一款大模型的约30%;生成10万 token 时,推理算力只需要另一款大模型的25%。性能表现优异:MiniMax 在业内公认的17个主流评测集上对 M1进行了测试,结果显示,M1在软件工程、长上下文理解以及工具使用等复杂且对生产力要求较高的场景中展现出绝对实力。在长上下文理解任务中不仅超越所有开源模型,还在部分指标上接近 OpenAI o3和 Claude4Opus,在全球范围内位居第二;在代理工具使用场景(TAU - bench)的评测中,战胜了 Gemini - 2.5Pro。 技术创新混合架构:采用闪电注意力机制为主的混合架构,将线性注意力(Linear Attention)与标准 Softmax 注意力有机融合,形成独特的“闪电注意力”机制,使得模型在计算长上下文输入以及深度推理时更加高效,在保持长序列处理效率的同时,解决了纯线性注意力在信息检索上的固有缺陷。强化学习算法:运用 CISPO 强化学习算法,优化重要性采样权重,训练效率超越其他大模型。在 AIME(AI - powered Moral Evaluator)等测试中,CISPO 的收敛性能比字节跳动近期提出的 DAPO 算法快一倍,也显著优于 DeepSeek 早期使用的 GRPO 算法。 开源与应用完整的 M1模型权重、技术报告均已在 Hugging Face 和 GitHub 上开放获取。同时,公司正积极与国家超算平台、vLLM 等业界主流开源框架合作,以确保开发者能够轻松、高效地部署和使用 M1模型。MiniMax 还宣布,在其自有的 App 和 Web 端,M1模型将保持不限量免费使用。
|
|