智东西
作者 | 王涵
编辑 | 漠影
智东西 7 月 28 日报道,今天上午,蚂蚁数科正式发布蚂蚁数科金融推理大模型 Agentar-Fin-R1 。该模型基于 Qwen3 研发,在 FinEval1.0、FinanceIQ 等金融大模型评测基准上超越 DeepSeek-R1 等同尺寸开源通用大模型以及金融大模型。
Agentar-Fin-R1 包括 32B 和 8B 参数两个版本,还有非推理版本的 14B 和 72B 参数大模型,以满足金融机构在多样化场景下的部署需求。此外,蚂蚁数科还推出基于百灵大模型的 MoE(混合专家)架构模型,获得更优推理速度。
同时,蚂蚁数科还开源了大模型金融应用评测基准 Finova 以及 Agentar-Deepfinance-100K 金融领域训练数据集。
一、蚂蚁数科用 3 个特点登顶权威榜单,超越同类金融大模型
蚂蚁数科首席技术官王维介绍,Agentar-Fin-R1 主要有 " 可靠、可控、可优化 " 的三大特点:
首先是 " 可靠 ",王维认为,行业大模型需要构建系统化专业化的金融任务体系。
为此,Agentar-Fin-R1 打造了 6 大类 66 小类的金融任务体系,覆盖银行、证券、保险、基金、信托等金融全场景。围绕这一体系,通过可信的数据合成和长思维链的精标链路,从场景数据出发,蚂蚁数科构建了 100K 的大规模训练集。
基于任务体系和大规模数据训练集,Agentar-Fin-R1 在激活能力上和 Qwen 和 DeepSeek 等通用大模型旗鼓相当。在金融推理能力上,该模型在 FinEval 1.0、FinancelQ 以及 Finova 等金融榜单中,超越超越 DeepSeek-R1 等同尺寸开源通用大模型以及金融大模型。
在 " 可控 " 方面,王维介绍,在训练金融大模型的过程中,该模型以金融任务体系为靶点,结合主动学习的实践,通过自动识别模型的薄弱项,可以有针对的合成数据、动态调节,在提升训练效率的前提下,避免了大规模的遗忘。
Agentar-Fin-R1 仅用不到一半的数据达成了更优的模型能力,在多任务的均衡训练中,该模型能够极大地降低微调阶段需要的数据和算力,实现较高的迁移效率。
此外,Agentar-Fin-R1 还将不断进化。蚂蚁数科首席技术官王维认为,行业模型应该建立高频的敏捷的迭代机制,让模型能够持续发现模型的问题和缺陷,进行快速修复。
这背后需要两个方面的努力,一是密切关注实际数据,定位模型表现;另一方面就是紧密追踪金融动态,市场调整以及产业机构和产品的变化。
最终,蚂蚁数科将通过训练和评测联动以及高效生成的训练数据,驱动模型进化,使 Agentar-Fin-R1 更加贴合金融业务需要。
二、全面开源金融基准测试集,联合五大机构发布
除此之外,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构,推出大模型金融应用评测基准 Finova。
Finova 是针对复杂推理任务和金融智能体任务的评测任务集,涵盖意图识别、工具调用和结构化表现等金融行业全方位测评的各个环节。
据介绍,蚂蚁数科还首创了高复杂度的金融推理问题库,该数据库来源于蚂蚁积累的多年的真实业务数据,经过 5000 万道问题和人工筛选,再配合长思维链的精标链路,形成了一套全面评估真实业务能力的评测集。
此外,蚂蚁数科还将 Agentar-Deepfinance-100K 大规模金融领域训练数据集全面开源。
结语:金融与 AI 深度融合,步入 " 垂直专用 " 深水区
蚂蚁数科 CEO 赵闻飙说到,AI 智能体产业价值释放的关键在于 " 水平通用 " 向 " 垂直专用 " 的战略转变。
此次 Agentar-Fin-R1 的推出,以及 Finova 评测基准和 Agentar-Deepfinance-100K 数据集的开源,正是这一转变在金融领域的具体实践。
随着人工智能技术的不断发展,金融机构对大模型的需求日益精细化,从最初在客服、办公等场景的浅层次应用,逐步深入到风控、财富管理、信贷审批等核心业务流程。
然而,在实际推广和应用过程中,如何确保模型在不同金融机构的业务环境中稳定运行,如何平衡模型性能与数据安全保护之间的关系等等挑战,依旧需要 AI 企业与金融机构共同解决。
 
    

登录后才可以发布评论哦
打开小程序可以发布评论哦