超越GPT-5、Gemini Deep Research！人大高瓴AI金融分析师，查数据、画图表、写研报样样精通

能自动查数据、写分析、画专业金融图表的 AI 金融分析师来了！

最近，中国人民大学高瓴人工智能学院提出了一个面向真实金融投研场景的多模态研报生成系统——玉兰 · 融观（Yulan-FinSight）。

面对用户的研究需求，FinSight 能够自动拆解任务，从互联网和金融数据库中搜集包括股价、财报、新闻在内的多源异构数据，并生成包含 " 发展历程 "、" 核心业务架构 "、" 竞争格局 " 等章节的万字图文报告。

△可在 FinSight 预设基础上自行配置

该系统也在AFAC 2025 金融智能创新大赛挑战组的 1289 支队伍中夺冠，并在多项评测中超越了 GPT-5 w/Search、OpenAI Deep Research 与 Gemini-2.5-Pro Deep Research，展现出接近人类专家的金融分析与写作能力。

下面来看详细内容。

为什么通用 AI 做不好金融研报？

在研究者看来，问题的关键并不在于模型 " 不会写字 "，而在于金融行业的研究报告本身是一项高度结构化、强逻辑、强可视化的专家级工作，涉及多个流程。

相比通用问答、检索或文本生成任务，金融投研对数据整合能力、分析深度以及表达形式均提出了更高要求。

具体而言，现有通用 AI 系统主要面临三方面挑战：

1、领域知识与数据割裂：

通用搜索系统难以有效整合股价、财务报表等结构化金融数据与新闻、公告等非结构化信息。由于缺乏统一的数据表示与多智能体协作分析机制，系统往往只能对单一信息源进行浅层处理，难以形成系统性的金融洞察。

2、专业级可视化能力缺失：

金融研报高度依赖图表来传递高密度信息，但现有模型多只能生成静态图片或简单折线图，难以支持多维对比、事件标注等专业金融可视化需求，图文之间也缺乏严格的数据一致性约束，例如，图文无关或图文信息矛盾与冲突。

3、缺乏 " 迭代式研究 " 能力：

绝大多数系统仍采用固定的 " 先检索—后生成 " 流程，研究路径一旦确定便难以调整。

相比之下，人类分析师往往会根据中间发现不断修正研究重点，而这种基于中间结果的动态策略调整能力，正是现有通用 AI 系统普遍欠缺的部分。

FinSight 的核心思路：像金融分析师一样工作

为突破上述限制，FinSight 并未简单地 " 堆模型 "，而是从认知流程入手，模拟人类金融专家的工作方式，并提出了三项关键技术创新。

核心架构：代码驱动的可变内存智能体架构

△从单智能体到多智能体

FinSight 的底层采用了一种全新的、名为Code-Driven Variable-Memory（CAVM）的多智能体架构。

如图所示，现有 Agent 架构本质上仍受限于对话式记忆范式，即以消息或任务进度等历史作为状态载体。这一范式在任务复杂度与流程长度增长时，容易暴露出表达能力与可控性的结构性瓶颈。

CAVM 将这一范式重构为代码驱动的变量记忆空间。系统不再以自然语言对话作为协作媒介，而是将数据、工具与中间推理结果统一映射为可读写的程序变量，由多个Code Agent通过共享变量空间完成协同推理。

通过将 " 记忆 " 从消息序列提升为可操作的变量结构，CAVM 使复杂任务得以被显式建模、持续修正与模块化组合，为长时程、多流程的专家级推理提供了必要的结构支撑。

△CAVM 架构示意图

在这一设计中，数据、工具和智能体被统一抽象为可编程变量空间：

财务报表、行情数据、新闻文本作为数据变量

搜索、分析、绘图等能力作为工具变量

不同功能的 Agent 通过 Python 代码进行调度与协作

这种 " 以代码为中枢 " 的设计，使系统能够高效处理大规模异构金融数据，并支持复杂的多流程任务协作。

视觉突破：迭代式视觉增强机制

针对金融图表生成中普遍存在的专业性与可信度问题，研究者们提出了Iterative Vision-Enhanced Mechanism，将绘图过程建模为一个可迭代优化的视觉生成问题。

△FinSight 生成的多维图表

该机制采用了Actor – Critic 协作范式：

文本大模型作为Actor，负责生成可编译、可执行的绘图代码，充分发挥其在代码生成与逻辑控制上的优势；而视觉语言模型则作为Critic，直接对图像进行视觉层面的审视，从数完整性与整体美观性等维度提供反馈。

这一设计的关键在于优势互补：语言模型擅长编码与思考，却难以获取真实的视觉反馈；视觉模型具备强大的感知与判别能力，但在复杂代码生成上能力受限。

通过将二者解耦并置于闭环中，系统在test time通过多轮 " 生成—评估—修正 " 实现持续优化，使绘图质量随迭代次数自然提升。

△股价、MACD、RSI 分析图

最终，系统能够稳定生成包含双轴对齐、事件标注以及复杂结构的专业金融图表，如图所示，将原本一次性生成的静态结果，转化为一种test-time scaling的过程。

两阶段写作框架：先分析，再成文

在写作层面，FinSight 并不试图一次性生成完整的长篇研报，而是将研报写作重构为" 分析—整合 "的两阶段过程。

△两阶段写作框架示意图

首先，系统生成一组" 分析链 "（Chain-of-Analysis，CoA）：每条分析链对应一个明确的子任务（如公司历程、财务分析、竞争对手分析、风险因素等），在局部范围内完成证据收集、关键判断与核心结论提炼。

之所以需要这一步，是因为一份研究报告往往由多个子问题耦合构成，若直接端到端生成长文，很难兼顾所有的分析准确性和深度。

随后，系统以这些 CoA 作为 " 骨架 "，将分散的洞察在全局层面进行组织与编排，生成大纲并分章节逐步写作：在保证章节结构与论证链条连贯的同时，把文本叙述、数据引用与图表呈现进行对齐，最终合成为一份逻辑自洽的长篇报告。

这种" 先分析、后写作 "的策略有效避免了长文常见的逻辑松散问题，使报告在篇幅超过 2 万字时仍保持结构清晰、论证深入。

为了进一步保证长篇研报中的事实准确性与图文一致性，作者在写作阶段还引入了一种生成式检索（Generative Retrieval）机制。

不同于传统 " 先检索、后生成 " 的后处理做法，该方法将检索过程嵌入写作本身：模型在生成具体段落时，会根据当前的分析链与写作上下文，动态生成数据和图片的索引标识符，再通过后处理统一嵌入。

这样一来，引用准确性和图文一致性得到了最大的保证。

△分析链输出结果

通过这种方式，FinSight 能够在长篇写作过程中持续对齐文本叙述、数据来源与可视化结果，避免常见的事实错配与图文脱节问题，从而在报告篇幅不断扩展的情况下，依然保持整体逻辑与证据链的稳定性与一致性。

实验结果：全面超越现有 Deep Research 系统

作者们在涵盖公司研究与行业研究的高质量基准测试上，对 FinSight 进行了系统评估。

结果显示，FinSight 在事实准确性、分析深度与呈现质量三项核心指标上均显著优于 Gemini-2.5-Pro Deep Research 与 OpenAI Deep Research，综合评分达到8.09。

在可视化维度上，得益于迭代式视觉增强机制，FinSight 获得9.00的评分，明显领先对比系统，体现出对专业金融图表生成能力的有效提升。

而迭代式绘图的效果分析同样惊艳：

在长文本生成场景中，系统生成的研报平均长度超过 20000 字，包含 50 余张图表与结构化数据引用，且随着篇幅增长，报告质量保持稳定，未出现显著退化。

此外，在 AFAC 2025 金融智能创新大赛中，FinSight 在来自企业与高校的 1289 支参赛队伍中排名第一，获得挑战组赛题四冠军，进一步验证了其在真实场景中的实用性与鲁棒性。

研究者认为，FinSight 并非仅是一个金融工具，而是展示了 Agent 架构在高复杂度垂直领域的潜力。

通过统一数据、工具与智能体，并引入视觉与写作的多阶段闭环，AI 系统首次在金融投研这一 " 专家密集型 " 场景中，展现出接近人类分析师的工作能力。

这一范式的意义不止于金融。

它表明，在那些高度依赖专业知识、长时程推理与多模态表达的 " 专家密集型 " 场景中，AI 系统不再只是信息汇总器，而开始承担起类似人类专家的工作方式：

分解问题、验证假设、修正结论，并最终形成可被审阅与追溯的完整成果。

从这个角度看，FinSight 更像是一个起点。

随着 Agent 架构不断成熟，未来的科研分析、法律研判、医疗决策等复杂领域，或将逐步迎来以专家级 AI Agent 为核心的新一代生产力形态。

论文及项目作者：

中国人民大学高瓴人工智能学院：金佳杰、张宇尧、许一孟、钱泓锦、朱余韬、窦志成

论文链接：https://arxiv.org/abs/2510.16844

代码链接：https://github.com/RUC-NLPIR/FinSight

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签