驱动之家 12小时前
中国唯一!阿里千问斩获顶级AI会议最佳论文
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 11 月 28 日消息,据媒体报道,人工智能领域顶级会议 NeurIPS 2025 公布了论文奖,阿里通义千问团队最新研究成果从全球 2 万多篇投稿论文中脱颖而出,被评为最佳论文,是唯一获得该奖项的中国团队。

该论文聚焦于大模型的核心组件——注意力机制,首次在业内系统性地解密了 " 注意力门控机制 " 对模型性能与训练效率的关键影响。

这一突破性发现被业内人士广泛认为是解决当前大模型训练瓶颈的重要一步,将有力推动整个 AI 大模型技术的进步。

作为人工智能领域的顶尖盛会,NeurIPS 曾孕育出 Transformer、AlexNet 等里程碑式成果。本届会议吸引了谷歌、微软、OpenAI、阿里巴巴及麻省理工学院等全球顶尖机构参与,投稿竞争异常激烈,接收率仅约 25%,而最终评选出的最佳论文更是凤毛麟角,仅 4 篇入选,概率不足万分之二,代表了当前全球人工智能领域最具价值和影响力的前沿研究。

门控机制常被喻为模型的 " 智能阀门 ",其核心作用是帮助模型高效过滤冗余信息,从而提升模型表现。近年来,从 AlphaFold2 到 Forgetting Transformer,学术界和工业界已开始探索将门控机制融入注意力模型。然而,门控在注意力中发挥效用的深层原理及其在大规模训练中的实践效果,始终是未解之谜,缺乏系统性的实证研究。

此次,通义千问研究团队通过严谨的大规模实验填补了这一空白。他们在 1.7B 稠密模型(Dense)与 15B 混合专家模型(MoE)上进行了数十组实验,单组实验的训练数据量最高超过 3.5 万亿 tokens。

通义千问团队表示,对门控注意力机制的深入理解,不仅为未来大语言模型的架构设计开辟了新思路,也为构建更稳定、高效和可控的大模型奠定了坚实的理论基础。

目前,阿里通义千问已开源超过 300 款模型,覆盖全模态、全尺寸,全球累计下载量突破 7 亿次,衍生模型数量超过 18 万个,其开源生态的规模和影响力位居全球首位。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 人工智能 通义千问 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论