《科创板日报》3 月 24 日讯(记者 黄心怡)继阿里巴巴 CEO 吴泳铭宣布要全面 "AI 化 " 后,阿里系相关的蚂蚁集团近期在 AI 上也动作不断。
今日,针对关于蚂蚁百灵大模型训练成本的报道,蚂蚁集团第一时间回应《科创板日报》称:蚂蚁针对不同芯片持续调优,以降低 AI 应用成本,目前取得了一定的进展,也会逐步通过开源分享。
蚂蚁集团在本月发布的最新研究论文显示,其推出了两款不同规模的 MoE 大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为 168 亿(激活参数 27.5 亿),Plus 基座模型参数规模高达 2900 亿(激活参数 288 亿)。实验表明,其 3000 亿参数的 MoE 大模型可在使用国产 GPU 的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及 MoE 模型相当。
根据论文,虽然 DeepSeek、阿里通义千问、MiniMax 等系列的 MoE 大模型在特定任务中展现出卓越性能,但是 MoE 模型的训练通常依赖高性能计算资源(如英伟达 H100/H800 等先进 GPU),高昂成本制约了在资源受限环境中的普及应用。同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。
因此,蚂蚁团队设定的目标是 " 不使用高级 GPU" 来扩展模型,通过在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面进行优化和落地,旨在突破资源与预算限制实现高效大语言模型训练。
蚂蚁 Ling 团队在五种不同的硬件配置上对 9 万亿个 token 进行 Ling-Plus 的预训练。其中,使用高性能硬件配置训练 1 万亿 token 的预训练成本约为 635 万元人民币,但蚂蚁的优化方法将使用低规格硬件的训练成本将降至 508 万元左右,节省了近 20% 的成本,最终实现与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当的性能。
作为蚂蚁集团自研的大模型,百灵大模型重点布局在生活服务、金融服务、医疗健康等场景的应用。后续,蚂蚁百灵大模型 Ling-Plus 和 Ling-Lite 将计划开源。
近来,蚂蚁集团在人工智能领域频频加码,其中医疗是一大重点方向。3 月 21 日,蚂蚁集团对外公布了在医疗机构、医生、用户三端最新 AI 产品体系升级。其中,面向医疗机构,其联合华为医疗卫生军团、阿里云等推出 " 蚂蚁医疗大模型一体机 ";面向好大夫在线的 29 万注册医生,发布 AI 医生助手系列工具;同时,服务用户的健康应用 "AI 健康管家 " 也推出智能思考、健康自测等十余项新功能。
此外,蚂蚁集团也在拓展具身智能、AI 眼镜等方向。
蚂蚁集团已注册成立了上海蚂蚁灵波科技有限公司。作为蚂蚁集团拓展具身智能和机器人业务的主要载体,蚂蚁灵波科技将面向在家庭、养老、医疗健康等领域,助力上海浦东加快技术引领、行业集聚、产业升级步伐,打造以人形机器人为引领的具身智能创新高地和具有行业影响力的创新产业生态。
而招聘信息显示,蚂蚁集团近日正招聘 AI 智能眼镜的产品专家,要求有 2C 产品的经验。《科创板日报》从接近蚂蚁集团的人士处了解到,蚂蚁近期确实在扩充准备智能眼镜相关业务。
登录后才可以发布评论哦
打开小程序可以发布评论哦