XinWen无线 - XinWen.Mobi»XinWen无线 › 新闻 › 海量 ›

阿里发布下一代基础模型架构Qwen3-Next

日产讴歌福特极氪林肯阿尔法保时捷奔腾长城东风哈弗 Jeep 捷途岚图理想兰博基尼名爵马自达玛莎拉蒂欧拉奇瑞 smart 沙龙坦克特斯拉蔚来沃尔沃小鹏雪佛兰高合奥迪丰田本田雷克萨斯英菲尼迪捷达捷豹路虎阿斯顿马丁罗密欧标致宾利长安法拉利红旗几何凯迪拉克领克劳斯莱斯路特斯 MINI 迈凯伦哪吒起亚荣威三菱斯巴鲁腾势魏牌五菱现代雪铁龙宝骏大众宝马比亚迪

返回列表发新帖

阿里发布下一代基础模型架构Qwen3-Next

[XinWen.Mobi 原创复制链接分享]

xinwen.mobi 发表于 2025-9-13 11:10:58 | 显示全部楼层 |阅读模式

▶ 语音朗读

2025年9月12日凌晨，阿里通义实验室正式发布下一代基础模型架构Qwen3-Next，并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型。以下是关于Qwen3-Next的详细介绍：模型参数与性能：Qwen3-Next-80B-A3B-Base模型拥有800亿个参数，仅激活30亿个参数。其在Qwen3预训练数据的子集上训练，包含15T tokens训练数据，仅需Qwen3-32B 9.3%的GPU计算资源，针对超过32k的上下文，推理吞吐量可达到Qwen3-32B的10倍以上。开源模型版本：基于Base模型，阿里开源了Qwen3-Next-80B-A3B的指令模型（Instruct）和思维模型（Thinking），模型支持原生262144个token上下文长度，可扩展至1010000个token。其中，Qwen3-Next-80B-A3B-Instruct仅支持指令模式，其输出中不生成块；Qwen3-Next-80B-A3B-Thinking仅支持思考模式。指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当，思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。架构升级改进：混合注意力机制：用Gated DeltaNet（线性注意力）和Gated Attention（门控注意力）的组合替换标准注意力，75%的层使用Gated DeltaNet，25%的层保留标准注意力，能一致超过超越单一架构，实现性能与效率的双重优化。高稀疏度MoE结构：Qwen3-Next的MoE层实现了1比50的激活比，创下业界新高。相比Qwen3系列之前约1比16的MoE专家激活比，新架构扩展到了512总专家，10路由专家与1共享专家的组合，大幅减少每个token的FLOPS。训练稳定优化：包括零中心化和权重衰减LayerNorm等技术，以及其他增强稳定性以实现鲁棒的预训练和后训练。注意力输出门控机制能消除注意力池与极大激活等现象，保证模型各部分的数值稳定。多Token预测（MTP）机制：Qwen3-Next特别优化了MTP多步推理性能，通过训练推理一致的多步训练，进一步提高了实用场景下的投机采样接受率，提升了预训练模型性能并加速推理。开源与使用方式：新模型已在魔搭社区和Hugging Face开源，开发者也可通过Qwen Chat或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。

模型, 训练, 注意力, 架构, Qwen3-Next

		自动登录	找回密码
密码			立即注册

阿里发布下一代基础模型架构Qwen3-Next

阿里发布下一代基础模型架构Qwen3-Next

相关帖子