找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

阿里发布下一代基础模型架构Qwen3-Next

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-9-13 11:10:58 | 显示全部楼层 |阅读模式
2025年9月12日凌晨,阿里通义实验室正式发布下一代基础模型架构Qwen3-Next,并训练了基于该架构的Qwen3-Next-80B-A3B-Base模型。以下是关于Qwen3-Next的详细介绍:模型参数与性能:Qwen3-Next-80B-A3B-Base模型拥有800亿个参数,仅激活30亿个参数。其在Qwen3预训练数据的子集上训练,包含15T tokens训练数据,仅需Qwen3-32B 9.3%的GPU计算资源,针对超过32k的上下文,推理吞吐量可达到Qwen3-32B的10倍以上。开源模型版本:基于Base模型,阿里开源了Qwen3-Next-80B-A3B的指令模型(Instruct)和思维模型(Thinking),模型支持原生262144个token上下文长度,可扩展至1010000个token。其中,Qwen3-Next-80B-A3B-Instruct仅支持指令模式,其输出中不生成块;Qwen3-Next-80B-A3B-Thinking仅支持思考模式。指令模型的性能表现与参数规模更大的Qwen3-235B-A22B-Instruct-2507相当,思维模型优于谷歌闭源模型Gemini-2.5-Flash-Thinking。架构升级改进:    混合注意力机制:用Gated DeltaNet(线性注意力)和Gated Attention(门控注意力)的组合替换标准注意力,75%的层使用Gated DeltaNet,25%的层保留标准注意力,能一致超过超越单一架构,实现性能与效率的双重优化。    高稀疏度MoE结构:Qwen3-Next的MoE层实现了1比50的激活比,创下业界新高。相比Qwen3系列之前约1比16的MoE专家激活比,新架构扩展到了512总专家,10路由专家与1共享专家的组合,大幅减少每个token的FLOPS。    训练稳定优化:包括零中心化和权重衰减LayerNorm等技术,以及其他增强稳定性以实现鲁棒的预训练和后训练。注意力输出门控机制能消除注意力池与极大激活等现象,保证模型各部分的数值稳定。    多Token预测(MTP)机制:Qwen3-Next特别优化了MTP多步推理性能,通过训练推理一致的多步训练,进一步提高了实用场景下的投机采样接受率,提升了预训练模型性能并加速推理。开源与使用方式:新模型已在魔搭社区和Hugging Face开源,开发者也可通过Qwen Chat或阿里云百炼、NVIDIA API Catalog体验Qwen3-Next。
回复

使用道具 举报

日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿·马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-11-2 21:20 , Processed in 0.085550 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表