每日经济新闻 前天
专访腾讯云副总裁答治茜:大模型时代下,知识库是企业的基础设施
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_caijing1.html

 

在实体经济和数字经济日益深度融合的大背景下,越来越多企业正积极拥抱大模型。不过,对于安全性、准确性要求极高的金融行业来说,通用大模型往往无法满足其需求。

" 在实际落地过程中,‘大模型 + 企业知识库’成为 AI 落地的最佳路径。" 近日,腾讯云副总裁答治茜在接受《每日经济新闻》(以下简称 NBD)记者专访时坦言,金融机构普遍面临着知识孤岛化、非结构化数据海量、合规成本高企等知识管理的困境。

如何破解金融行业知识管理困境?金融行业对 " 大模型 + 知识库 " 的关注点呈现怎样的特点?如何看待大模型落地过程中出现的 " 杜撰 "" 错配 " 等现象?围绕这一系列话题,答治茜为记者进行了详细的解答。

大模型是 " 大脑 ",知识库是 " 课本 "

当前,大模型技术正惠及千行百业,金融行业也在探索符合金融规律的 AI(人工智能)知识库建设路径。AI 知识库作为连接数据、算法与场景的核心枢纽,是金融机构实现 " 从技术到价值 " 转化的关键抓手。

NBD:大模型时代,企业的 " 知识库 " 扮演了什么角色?金融领域专属模型和通用大模型有什么差别?

答治茜 图片来源:受访者

答治茜:在大模型时代下,我们认为知识库是企业的一种基础设施。大模型是 " 大脑 ",知识库是 " 课本 ",大脑智力再高,如果没有学习过相关的知识,也无法很好地解决问题。

" 通用大模型 + 专业领域知识库 " 的研发类似 " 大脑 + 课本 " 模式。首先,需要投入巨大资源训练一个 " 万事通 " 基座模型,或者直接采用市面上已有的效果最优的模型,使其具备强大的语言理解、逻辑推理和代码能力。然后,通过 RAG(Retrieval-augmented Generation 检索增强生成)技术,为这个 " 通才 " 配备一个庞大的、实时更新的金融知识库,如行业研报、公司公告、实时新闻、风控规则等。这种模式的优势是灵活性高、迭代快、成本相对可控。

而 " 金融领域专属模型 " 的研发类似 " 科班出身 " 模式,从模型训练的第一天起,就使用海量且高质量的金融领域私有数据进行从零开始的预训练,让模型从 " 基因 " 里就深刻理解金融术语、市场逻辑和专业范式。

允许员工个人创建知识库空间

对银行、证券、保险等企业的从业者而言,企业知识库早已不是简单的文档管理系统,而是承载着风险管控、合规审查、客户服务等核心职能的 " 智能大脑 "。

NBD:金融行业对 " 大模型 + 知识库 " 的关注点呈现怎样的特点?

答治茜:首先,金融行业对于知识库安全与合规的要求更高。

由于金融行业监管的特殊性,数据安全、监管要求、信创适配等成为数字化建设底线。所以,为了更好满足金融企业的需求,我们 AI 知识库建设需要有更专业化的能力,比如精细化的多级权限管理体系、防泄露的页面水印、严谨的审计能力和内容风控体系等。

其次,金融行业对知识问答准确性和严谨性的要求极高。

金融是非常严谨的行业,员工每天都在跟数字和知识打交道,所以知识内容非常丰富,也很复杂,而且大家对于知识库的期待很高,如希望多表格数据的计算、财报里多模态数据的解读、银行理财产品推荐等等,这对我们提出很大的挑战。为此,我们专门在 AI 出图、表格计算、知识溯源等方面下了很多功夫,并取得了阶段性突破。

再次,金融行业更关注员工个人知识的沉淀。在与银行、资管企业沟通过程中,我们发现很多金融企业非常希望员工个人的经验知识能沉淀下来,把个人经验变成企业知识。另外,我们发现很多金融企业员工日常需要的知识内容也是有差异的,所以 " 个人知识库 " 的概念今年被广泛关注,我们在知识库中设计了允许员工个人创建知识库空间的功能,同时打通微信、腾讯文档、企业微信等。

NBD:数据安全是企业发展过程中非常重要的环节,对于金融企业来说尤其如此,您如何看待数据安全问题?

答治茜:金融行业对于监管、数据运营等有非常高的数据安全和隐私保护的要求。我们要从两个方面思考:

一是技术和产品层面,从应用到数据、算力等所有的基础设施,要实现私有化部署和全链路的安全。

另一个层面是运营层面,综合考虑管理和技术。比如说金融机构内部某团队有两三百人时,内部如何协同、如何按层级划分权限,哪些信息能让哪些人看到,这就是管理要求,要满足多级的授权管理。

如何避免幻觉:不乱说、能溯源、有效管理知识

在使用 AI 助手咨询某个问题时,经常得到错误的回复,这种现象在 AI 圈被称为 " 幻觉 "," 幻觉 " 问题困扰着所有使用大语言模型的人。

NBD:个人使用大模型问答的时候会出现一些杜撰错误。如何看待大模型落地过程中出现的 " 杜撰 "" 错配 " 等问题?

答治茜:ChatGPT 出来后,我们就在思考大模型时代下行业会有什么样的变化。2024 年开始,乐享就转型聚焦做 AI 知识库,目前在产品功能、问答准确性上应该是比较领先的。

当前大模型 " 杜撰 " 的情况还比较普遍,我认为破解的关键在于三方面:答案模糊的时候拒答不乱说、输出能有效溯源、企业内部知识实现有效治理(比如有效性和及时更新等)。考虑到乐享定位为企业级知识库,我们做了非常多的工作去提高准确性。主要是以下几方面:

第一,对文档、知识进行理解。我们自研 OCR(Optical Character Recognition, 光学字符识别)大模型,对复杂的图文混排文档解析准确率提升 30% 以上。

第二,理解后按照一定的规则对文档、知识进行切片存储。我们自研业界首个基于语义切分的模型,保障切分片段语义的完整性。

第三,当用户通过 AI 助手来问答时,我们会结合上下文对用户的问题进行理解后并改写,从而提升检索精度。

第四,基于改写后的用户问题,使用向量检索和关键词检索的混合检索模式,找到最相关的内容。

第五,上一步可能检索到大量内容,但并非所有内容都与问题紧密相关,因此需要对这些内容进行重新排序与过滤。

第六,基于重排后的内容调用大模型生成最终的答案。

经过以上程序,目前我们的准确率超过 92%,我们会持续投入精力去提升准确率。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

腾讯云 ai 基础设施 金融机构 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论