找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

上海AI企业发布首个混合架构开源模型

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-6-24 13:04:06 | 显示全部楼层 |阅读模式
2025年6月17日凌晨,总部位于上海的 AI 独角兽企业 MiniMax(上海稀宇科技有限公司)发布了自主研发的“全球首个开源的大规模混合架构推理模型”MiniMax - M1。 模型优势长文本处理能力强:支持100万 token 上下文窗口,是国内另一开源强手 DeepSeek R1(12.8万 Token)的近8倍,同时支持8万 Token 推理输出,为处理复杂文档分析、长篇代码生成等任务提供了可能性。成本优势明显:训练成本仅为53.74万美元,约合380万元人民币。在进行8万 Token 的深度推理时,M1所需的算力仅为国内另一款大模型的约30%;生成10万 token 时,推理算力只需要另一款大模型的25%。性能表现优异:MiniMax 在业内公认的17个主流评测集上对 M1进行了测试,结果显示,M1在软件工程、长上下文理解以及工具使用等复杂且对生产力要求较高的场景中展现出绝对实力。在长上下文理解任务中不仅超越所有开源模型,还在部分指标上接近 OpenAI o3和 Claude4Opus,在全球范围内位居第二;在代理工具使用场景(TAU - bench)的评测中,战胜了 Gemini - 2.5Pro。 技术创新混合架构:采用闪电注意力机制为主的混合架构,将线性注意力(Linear Attention)与标准 Softmax 注意力有机融合,形成独特的“闪电注意力”机制,使得模型在计算长上下文输入以及深度推理时更加高效,在保持长序列处理效率的同时,解决了纯线性注意力在信息检索上的固有缺陷。强化学习算法:运用 CISPO 强化学习算法,优化重要性采样权重,训练效率超越其他大模型。在 AIME(AI - powered Moral Evaluator)等测试中,CISPO 的收敛性能比字节跳动近期提出的 DAPO 算法快一倍,也显著优于 DeepSeek 早期使用的 GRPO 算法。 开源与应用完整的 M1模型权重、技术报告均已在 Hugging Face 和 GitHub 上开放获取。同时,公司正积极与国家超算平台、vLLM 等业界主流开源框架合作,以确保开发者能够轻松、高效地部署和使用 M1模型。MiniMax 还宣布,在其自有的 App 和 Web 端,M1模型将保持不限量免费使用。
回复

使用道具 举报

日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿·马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-10-27 10:21 , Processed in 0.100681 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表