数智前线 1小时前
突破AI产业落地卡点,蚂蚁韦韬:数据是变革关键
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 时代 " 数模一体 ",对数据可信流通有了更迫切的需求。密态计算行业迎来重要的战略机遇期。

文|徐鑫

编|任晓渔

" 蚂蚁密算创新全链路密态的隐私保护计算技术,以技术突破信任壁垒,实现数据规模化低成本可信流通,服务超千万级用户。" 日前,蚂蚁密算获得 " 世界互联网大会杰出贡献奖 ",颁奖词着重强调了 " 数据规模化低成本可信流通 " 的价值。

大模型进入产业落地前夜的当下,蚂蚁密算获得权威认可,在外界看来是一个信号。某种程度,它反映了这家年轻的公司围绕着数据流通和人工智能产业落地卡点的探索关注,在 AI 时代已成为行业普遍性议题——

一方面,数据驱动的模型对高质量数据产生了前所未有的需求,数据要素的跨主体、跨行业、跨区域的低成本、高性能、高安全流通变得更为迫切。另外,大模型带来的智能变革似乎近在眼前,但它距离千百倍的行业变革仍然有距离。

而蚂蚁密算的解法,由此也产生了更大的行业借鉴意义。无论是提出密态计算还是发布致力解决大模型在专业应用中的可靠性困境的高阶程序(High-Order Program, HOP),在 " 数模一体 " 的新时代,正为解决高质量数据缺乏背景下的数据治理产能不足、推进高价值高敏感数据跨主体融合利用、加速人工智能的产业应用,贡献了一份自己的力量。

蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬在沟通会现场直言,"AI 时代,蚂蚁密算所选择的方向正得到产业界认同,整个行业发展正迎来一个重要的战略窗口期和规模化应用机会。"

密态计算正进入规模化应用元年

" 数据是 AI 时代的新石油 ",这句诞生在 AI 1.0 时代的断言,在大模型时代含金量还在进一步上升。

今年 6 月,Meta 以约 143 亿美元对数据标注领域头部公司 Scale AI 49% 股份的天价收购案,某种程度上反映出,AI 时代数据在模型智能及大模型的竞争中呈现出巨头卡位的重要性。

这背后是当下 AI 数据领域的现实挑战:目前,可用于通用模型训练的互联网公开数据在基模训练里几乎已消耗殆尽,这一方面使得大模型训练早已从数据参数规模扩展,转向数据语料的质量上。同时,不在公开渠道流转的高敏数据以及包含了垂类场景知识的专业数据,正对大模型智能提升以及行业应用产生越来越大的影响。

这一行业现状也让产业界对更加畅通的数据要素安全流通机制有切实需求。以 Scale AI 收购案为例,在 Meta 发出收购信息后,一大批与 Meta 的模型存在竞争关系的厂商纷纷开始切断与 Scale AI 的合作,背后就是对数据安全相关的担忧。

但现实是,拥有稀缺的高质量数据的企业和各类主体,出于安全等各种顾虑,很难放心让数据跨域去流通、流转。IDC 在今年 4 月的一份报告中就指出,当前数据市场供需不旺,主要原因对数据流通的不信任。

韦韬观察,AI 时代 " 数模一体 ",数据的可信安全流通还多了一重新的迫切性。

大模型作为数据驱动的知识汇聚技术,只有大量的数据和专业知识,才能构建大模型。同时,模型即数据,数据上所承载的专业价值、商业的秘密都会展现在模型里面。

韦韬认为,大模型一旦流通应用,数据上所要做的保障,在模型层也需要做相关的保障。模型本身也需要诞生在能保障数据、智能体高效流动、应用和融合的密态计算基础设施之上。

这些都意味着,密态计算的市场空间正进一步打开。

实际上,过去两年来,密态计算领域经历了快速的发展演进。

一年半以前,蚂蚁集团成立了蚂蚁密算,将蚂蚁过去十年在下一代隐私保护计算领域积累的技术能力对外输出。当时密态计算领域正如韦韬所言," 去年但凡谈密算,大家都觉得是蚂蚁一家在做。"

但随着密态计算技术升级,成本大幅降低至明文分布式计算的 1.5 倍以内,这项新兴技术开始在医疗、金融等领域规模化落地,比如帮助超 1300 万农户获得贷款,让 75% 新能源车主平均下降 8% 保费。据相关合作单位估算,在密算上投入 100 万,整个行业收益 100 倍以上,一年电费能耗不到 5000 元。

韦韬提到,这些落地进展让行业确信,密算真的能让产业界敢于注入高敏高价值数据,并且基于密算保障的数据流通后,业务能真正获得显著效果。

与产业落地进程同步,密态计算的相关国家标准也在同步推进中,同时更多的行业玩家进入这一市场。

就在乌镇举行的世界互联网大会的前一天,韦韬还参与了国家数标委 WG6(国家数据标准化委员会数据基础设施标准工作组)成立的 SG2 密态计算研究组,他看到已经有超过 20 家单位加入工作组,密态计算正加速进入行业共建阶段。

叠加上 AI 时代对数据安全流通产生的强烈需求,韦韬认为," 今年是密态计算的市场化规模应用启动元年 "。当下行业处于高敏高价值行业先行投入阶段,随着行业基建完善,未来整个互联网上无法公开传输的数据都可以基于密算承载,这将是一个巨大的市场。

" 数模一体 ",加速 AI 时代数据价值释放

数据流通安全问题经由密态计算技术得到保障后,专业数据要真正在产业应用流通里真正 " 用得好 " 并不是那么 " 理所当然 "。

韦韬观察到,蚂蚁密算在与国家部委的合作里发现,那些从来没有参与跨主体、跨域流通和供给的数据的质量,与真实产业场景应用的要求之间存在不小的差距。

" 大量数据缺乏治理、缺乏标准化,以及此前汇聚传输过程中可能累积了很多错误,这使得它很难快速被用起来,去产生应用价值 ",韦韬说。

实际上,这一现象过去几年里在明文数据的治理领域也是一个通行问题。为解决高质量数据缺乏现状,国家在顶层设计层面也已经出台了大量的政策,牵引和推动高质量数据集的建设工作。

但不可否认,传统的基于人工来处理数据治理工作,依然有不小的产能局限。中国信通院在《数据标注产业发展研究报告(2025)》中指出,人才培养机构输出的标注工程师年均缺口超 30%。高端专业领域的标注和治理人才稀缺,已是共识。

涉及到高敏高价值的数据场景,产能缺口就更大。比如金融机构的联合风控场景,数据不能出域,为构建更好的模型,多方针对业务指标数据的清洗、治理、对齐等需要数周,并且能去做相关工作的专家资源很难找。

针对这一挑战,蚂蚁密算认为,基于密算体系支撑的高阶程序和高阶智能体可来解决这些高敏高价值数据的治理效能问题。

今年 7 月蚂蚁密算针对大模型产业落地时可靠性不足,需要人工核验等大规模应用瓶颈提出了高阶程序技术框架,它用编程语言强化大模型执行结果的审核和核验,摆脱对人工核验的依赖,确保大模型落地的可靠性。韦韬认为,这将加速行业效能提升," 如果所有大模型处理完的业务都需要人再核验,效能提升非常有限 "。

这一解决思路,也体现了韦韬提出 " 数模一体 " 新范式的另一重意义——海量专业数据与行业知识是构建大模型与专业智能体的基石,智能体也成为挖掘与融合数据价值的核心引擎。

" 整个数据的流动和数据上产生的模型,以及模型对数据的应用是以一体化的方式进行 ",韦韬说。

IDC 在今年 4 月发布报告里也指出,可针对数据质量参差不齐的情况,结合大模型等人工智能实现数据治理自动化,推动数据标识、语义发现、元数据识别等智能处理,自动匹配利用数据 API 进行调用,实现数据的无缝对接和互操作性。

蚂蚁密算已经在自身的业务实践里,感受到了数据治理场景里高阶智能体加速治理效能的必要性。韦韬介绍,他们基于高阶智能体体系把 200 多项关于数据的国标和行标,全部做自动化处理。以前标准在那里,用的人不多,因为里面有非常多的口径不统一问题。这里面涉及到非常多繁琐的工作,比如围绕着性别就有非常多的指代口径。

在医疗场景里的一些数据也基于高阶程序产生了治理效能升级。医院有大量的数据需要做合规诊断,比如医生写的诊疗报告,相关的项目是不是写全,实际诊疗的内容和报告中是不是对应匹配。

靠传统规则去查很难,传统大模型做这件事情,可靠性又跟不上。由于涉及高敏信息,院方受限于数据敏感及行业保密要求,也很难将相关数据交由第三方进行专业分析处理。而基于密态计算的高阶智能体则能很好能解决这个问题。

在数模一体的范式下,汇聚了行业知识的高阶智能体,正加速 AI 时代数据的汇集和治理能效,释放数据价值,推进 AI 产业落地进程。

蚂蚁密算,探索 AI 时代的数据可信流通新基建

" 最能体现密态计算的价值点不体现在防御外部攻击者,而是保障平台运维者不能出于自身利益而将数据偷走。" 韦韬用来一个比喻直观地解释它的价值,他认为整个密态计算体系本质上是将云计算的 Paas 层及以上全部重构。

以前外挂式安全路径其实无法解决这一问题,因为针对外部供给的安全部署、策略配置方案、甚至账号本身都在管理员手里。而整个 PaaS 体系进行密态计算重构,就是要基于可信体系把虚拟机、操作系统、容器等全部做密态化、安全化增强。

在这个基础上,有数据流转的密态胶囊和数据血缘追踪以及密态网关,当所有的数据从密态切成明文传输时都有检查核验,追溯明确数据加工的产品数据源出处,并需要各个相关数据源方通过数据密钥来授权是否可以输出。

这是一个庞大的工程,需要体系化的投入,才能支撑住海量数据的高效能跨域融合流转以及出域的有效管控。

而蚂蚁密算当下能基于 " 数模一体 " 范式来推进 AI 时代的数据低成本规模化可信流通,也得益于蚂蚁集团从 2016 年开始的长期投入。

目前,蚂蚁密算正从密态计算基础设施、数据供给和流通供给、行业应用落地等多环节发力,形成了 " 芯片、系统、平台 " 的全体系基建,全栈布局来加速数据可信流通。

在与大模型应用落地最直接相关的应用层,今年 7 月在世界人工智能大会上蚂蚁密算提出了高阶程序大模型可信应用技术框架,它融合了自然语言与编程语言,来解决大模型在专业场景的可靠性困境,使大模型的应用逻辑从 " 黑盒 " 走向显性化、可控化。目前,该技术已在数据治理、金融风控、医保智能审核等多个专业领域落地。

" 现在在做 2.0 的迭代和积累,很快会在行业里面发布 ",韦韬预告了高阶程序框架的最新进展。

而高阶程序框架要能落地应用,还需要各行各业的行业专家们将领域内的专家知识和 Know-How 注入高阶程序,这些数据行业属性很强,承载了极强的商业价值,必然需要海量数据供给和流通。蚂蚁密算此前发布过业内首个密态可信数据空间,依托芯片远程认证、" 密态胶囊 " 等技术,让行业数据应用从 " 主体信任 " 走向 " 技术信任 ",能确保数据源方敢于注入海量高价值高敏感数据。

更底层的芯片和操作系统层面,蚂蚁也有长期布局。芯片层,今年 9 月在外滩大会上蚂蚁密算发布了 AI 密态升级卡,在不更换现有 xPU 硬件、不修改 AI 应用代码与驱动的前提下,能将现有的、大规模的明文智能算力,改造成密态智能算力。

" 性能损失跟国内各家 GPU 的适配,最好的损失不到 2%,最差的损失不到 6%,能有效支撑大模型的推理和微调,未来我们还会跟更多厂商合作。" 韦韬说。

操作系统层,星绽开源操作系统采用新兴的 Rust 编程语言,首创框内核 OS 架构,安全性方面大幅领先于 Linux 等主流 OS。

韦韬指出,蚂蚁密算在这一领域构建全面的能力,最初起源于蚂蚁自身的业务发展存在强烈的需求。" 蚂蚁一个重要的特点在于,推出的所有技术,在蚂蚁体系里面经过非常长时间的打磨。隐私保护计算,2016 年开始各个技术路线全面铺开,包括操作系统也是在内部做了将近 5 年。有了很强的能力后才能够对行业提供服务。"

而大模型时代,随着 AI 时代的数据流通面临多方位的安全威胁,数据可信安全流通成为全社会共同的痛点,这一领域也迎来了前所未有的发展前景。

对于蚂蚁密算而言,这是一个找对了方向最终自然收获回报的过程。" 首先是找到了一个正确的方向,这个方向可能初期投入很大,可能非常艰难,但是它突破以后能给行业带来价值,真正的收益也是巨大的。" 韦韬说。

© 本文为数智前线(szqx1991)原创内容

进群、转载或商务合作联系后台

文章精选

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 人工智能 ai时代 数据驱动 数据标注
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论