贵阳日报 07-09
一年内跻身西南第一梯队,贵阳经开区这支算法团队凭啥?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,国际数据公司 ( IDC ) 最新报告显示,字节跳动旗下的豆包大模型在中国公有云大模型市场份额排名第一,占比高达 46.4%,且多模态能力处于全球领先水平。

越来越 " 聪明 " 的豆包,是 AI 技术团队持续训练的结果。这其中,就有一支来自贵阳经开区的算法团队——贵州网络数据融合创新实验室团队,在豆包算法团队中实力排名前列。

去年以来,人工智能发展日新月异。就在算力和应用高歌猛进之际,一个关键环节的短板日益凸显:作为训练 AI 的关键,算法供应链支撑率不足 10%,成为制约 AI 发展的桎梏。

面对巨大的市场缺口,贵阳经开区依托贵阳大数据安全靶场对数据的安全保障优势,引进贵州网络数据融合创新实验室,支持实验室打造 AI 算法供应链,破解行业 " 算法荒 " 困局。

破局:布局算法供应链赛道

据了解,人工智能发展包括三个层面:第一个层面是作为上游的算力层,包括各类算力中心;第二个层面是作为下游的应用层,比如各种大模型。还有一个中游的算法层容易被市场忽视。

" 经过这两年的发展,应用层、算力层的规模和能力都跑到了算法前面。全国各地都在建算力中心,市场大模型层出不穷,但按照现有算力和应用的规模,算法供应链完成率却不到 10%。" 贵州网络数据融合创新实验室副主任容崧琼告诉记者。

AI 行业面临全国性 " 算法荒 ",但也潜藏着巨大的市场空间。基于对行业需求的观察,2023 年开始,贵州省相关部门与广西科学院进行深入交流后得出一致结论,不管是数字经济发展情况,还是政策对大数据产业的支撑力度,贵州都更有优势。先机即商机,2024 年 8 月,两地共同成立贵州网络数据融合创新实验室,并落地贵阳大数据安全产业示范区。

每个行业都有供应链,都需要原材料,人工智能行业也不例外。实验室落地贵阳经开区以来,紧紧聚焦 " 算法荒 " 行业短板,专注于做算法供应链,通过汇聚数据、治理数据,为 AI 发展提供所需数据 " 原材料 "。

算法供应链涉及生产数据、加工数据等环节,且每个环节都有着极高的数据安全需求。落地贵阳大数据安全产业示范区,依托贵阳大数据安全靶场,很好地保障了实验室的数据安全。

" 贵州孵化大模型虽没有发达地区有优势,但这边的数据供应链较强,依托这种优势,我们专注于做好算法供应链。" 容崧琼说,算法供应链的前提是拥有海量数据支撑,这也恰恰是贵州发展大数据产业多年来形成的先发优势。

得益于这种优势,实验室成立后,与相关单位打通渠道,增强数据生产、治理能力,将数据资源优势转化为算法供应链支撑能力。目前,实验室每天生产数据达到 300 亿条。

强基:千人团队解题 " 喂 "AI

海量数据本身并没有价值,如何 " 沙里淘金 ",把无效数据变成有效资产?

容崧琼介绍,实验室犹如一个 " 原料生产工厂 ",实验室组建的人才团队是 " 工人 "。实验室按照订单需求,将相应数据给到 " 工人 "," 工人 " 对数据进行 " 加工提纯 " 后,通过贵阳大数据交易所输送到全国各地。

随着 AI 的发展,大模型训练已经不再局限于语言训练,而是包括语言识别、图像识别等在内的多模态大模型训练。因此,数据虽是资产,但真正将数据变成资产的关键是人才。

2023 年年初,大模型应用尚未全面推广时,实验室团队便预判人工智能的竞争本质是知识库的竞争,率先启动人才库储备。实验室成立后,迅速联合贵州大学建立贵州省数据标注实验室,构建专业人才梯队,以人才为核心支撑,将高校知识库转化为算法供应链的核心驱动力。

对人才的选拔,实验室设立严苛筛选机制,优中选优。学生要先报名,根据想做的算法训练参加培训和考试,考试合格后试标,试标成功率达到 95% 以上的,才能进入数据标注实验室参加数据治理。

高水平人才,解高难度题目。前两天,一个奥数题难住了解题人。两名学生紧密配合,一人负责解题,一人用程序把解题步骤写成机器语言。两人花了 4 小时,一共解了 50 多个步骤,才把题目解答出来。

目前,实验室已在贵州大学组建 1000 人的人才团队,其中 50% 以上是硕士研究生,有几十名博士研究生。今年,在贵州大学的人才团队计划扩展到 1 万人,硕士研究生要占到 60% 以上,博士研究生要占到 300 人至 500 人。数理化专业学生比例预计占 90% 以上。

此外,实验室还与兰州大学、安徽大学、桂林电子科技大学等高校完成签约,下步将继续加强与中山大学、中国科学技术大学等高校合作。每家合作高校计划组建 2000 人的团队。

为强化 AI 算法人才可持续供给,实验室构建了 " 实训 - 就业 " 的人才发展闭环。通过加强与企业合作,字节跳动等企业直接提供内推名额,团队优秀人才可获得入职大厂的机会。

开拓:数据交易规模达 2000 万元

在贵州大学数据标注实验室内,学生们正忙着解题,将解题步骤和答案转换成机器人能够识别的语言训练 AI,让豆包变得更 " 聪明 "。

" 训练 AI 的核心逻辑很清晰:谁能给它灌注更多知识,谁就能让它更聪明。" 容崧琼解释道,实验室通过与高校合作,对高校知识库深度挖掘,将数据供给师生进行 " 加工 " 后,再将 " 加工 " 好的数据 " 材料 " 喂给 AI。

今年高考后,实验室做了一项测试:将高考语文全国一卷的作文试题,让目前全球最顶尖的几款人工智能大模型进行解题作答,发现豆包的解题精准度最高。

人工智能算法供应链市场空间巨大,单一大模型平台每年的算法训练费用可达数十亿元。实验室正在为豆包等大模型提供算法支撑,为豆包提供的算法支撑力位居全国前三。

截至目前,实验室在全国的服务单位达 30 余家,包括 10 余家上市公司,以及多家科研院所。治理好的数据主要通过两条通道输出:对于豆包等有自有平台的单位直接输送给对方;其余客户通过贵阳大数据交易所进行交易。

实验室已在贵阳大数据交易所发布十余款数据产品,数据集日均交易量达数千条至数万条。实验室成立不到一周年,已成功跻身西南地区算法供应链第一梯队,截至今年 6 月,数据交易规模达 2000 万元。

今年上半年,实验室完成产值近 800 万元。2025 年,实验室将继续深化与重点高校合作,建强人才队伍,努力成为豆包大模型算法供应链团队的全国第一,致力于成为西南地区算法供应链龙头。

贵阳日报融媒体记者 黄菊

编辑 段筠 /编审 李枫 /签发 蒲谋

相关标签

供应链 ai 大数据 贵阳 贵州
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论