AI热点 8小时前 82 浏览次数 0 评论

刚刚!蚂蚁推出首个金融推理大模型,登顶权威金融测评,超越OpenAI o1、DeepSeek-R1

智东西

发布了 24 文章

智东西

作者 | 王涵

编辑 | 漠影

智东西7月28日报道,今天上午,蚂蚁数科正式发布蚂蚁数科金融推理大模型Agentar-Fin-R1 。该模型基于Qwen3研发,在FinEval1.0、FinanceIQ等金融大模型评测基准上超越DeepSeek-R1等同尺寸开源通用大模型以及金融大模型。

Agentar-Fin-R1包括32B和8B参数两个版本,还有非推理版本的14B和72B参数大模型,以满足金融机构在多样化场景下的部署需求。此外,蚂蚁数科还推出基于百灵大模型的MoE(混合专家)架构模型,获得更优推理速度。

同时,蚂蚁数科还开源了大模型金融应用评测基准Finova以及Agentar-Deepfinance-100K金融领域训练数据集。

一、蚂蚁数科用3个特点登顶权威榜单,超越同类金融大模型

蚂蚁数科首席技术官王维介绍,Agentar-Fin-R1 主要有“可靠、可控、可优化”的三大特点:

首先是“可靠”,王维认为,行业大模型需要构建系统化专业化的金融任务体系。

为此,Agentar-Fin-R1打造了6大类66小类的金融任务体系,覆盖银行、证券、保险、基金、信托等金融全场景。围绕这一体系,通过可信的数据合成和长思维链的精标链路,从场景数据出发,蚂蚁数科构建了100K的大规模训练集。

基于任务体系和大规模数据训练集,Agentar-Fin-R1在激活能力上和Qwen和DeepSeek等通用大模型旗鼓相当。在金融推理能力上,该模型在FinEval 1.0、FinancelQ以及Finova等金融榜单中,超越超越DeepSeek-R1等同尺寸开源通用大模型以及金融大模型。

在“可控”方面,王维介绍,在训练金融大模型的过程中,该模型以金融任务体系为靶点,结合主动学习的实践,通过自动识别模型的薄弱项,可以有针对的合成数据、动态调节,在提升训练效率的前提下,避免了大规模的遗忘。

Agentar-Fin-R1仅用不到一半的数据达成了更优的模型能力,在多任务的均衡训练中,该模型能够极大地降低微调阶段需要的数据和算力,实现较高的迁移效率。

此外,Agentar-Fin-R1还将不断进化。蚂蚁数科首席技术官王维认为,行业模型应该建立高频的敏捷的迭代机制,让模型能够持续发现模型的问题和缺陷,进行快速修复。

这背后需要两个方面的努力,一是密切关注实际数据,定位模型表现;另一方面就是紧密追踪金融动态,市场调整以及产业机构和产品的变化。

最终,蚂蚁数科将通过训练和评测联动以及高效生成的训练数据,驱动模型进化,使Agentar-Fin-R1更加贴合金融业务需要。

二、全面开源金融基准测试集,联合五大机构发布

除此之外,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构,推出大模型金融应用评测基准Finova。

Finova是针对复杂推理任务和金融智能体任务的评测任务集,涵盖意图识别、工具调用和结构化表现等金融行业全方位测评的各个环节。

据介绍,蚂蚁数科还首创了高复杂度的金融推理问题库,该数据库来源于蚂蚁积累的多年的真实业务数据,经过5000万道问题和人工筛选,再配合长思维链的精标链路,形成了一套全面评估真实业务能力的评测集。

此外,蚂蚁数科还将Agentar-Deepfinance-100K大规模金融领域训练数据集全面开源。

结语:金融与AI深度融合,步入“垂直专用”深水区

蚂蚁数科CEO赵闻彪说到,AI智能体产业价值释放的关键在于“水平通用”向“垂直专用”的战略转变。

此次Agentar-Fin-R1的推出,以及Finova评测基准和Agentar-Deepfinance-100K数据集的开源,正是这一转变在金融领域的具体实践。

随着人工智能技术的不断发展,金融机构对大模型的需求日益精细化,从最初在客服、办公等场景的浅层次应用,逐步深入到风控、财富管理、信贷审批等核心业务流程。

然而,在实际推广和应用过程中,如何确保模型在不同金融机构的业务环境中稳定运行,如何平衡模型性能与数据安全保护之间的关系等等挑战,依旧需要AI企业与金融机构共同解决。

智东西

智东西

24 文章 3090 浏览次数 0 粉丝

评论 (0)

睡觉动画