一年内跻身西南第一梯队，贵阳经开区这支算法团队凭啥？

日前，国际数据公司 ( IDC ) 最新报告显示，字节跳动旗下的豆包大模型在中国公有云大模型市场份额排名第一，占比高达 46.4%，且多模态能力处于全球领先水平。

越来越 " 聪明 " 的豆包，是 AI 技术团队持续训练的结果。这其中，就有一支来自贵阳经开区的算法团队——贵州网络数据融合创新实验室团队，在豆包算法团队中实力排名前列。

去年以来，人工智能发展日新月异。就在算力和应用高歌猛进之际，一个关键环节的短板日益凸显：作为训练 AI 的关键，算法供应链支撑率不足 10%，成为制约 AI 发展的桎梏。

面对巨大的市场缺口，贵阳经开区依托贵阳大数据安全靶场对数据的安全保障优势，引进贵州网络数据融合创新实验室，支持实验室打造 AI 算法供应链，破解行业 " 算法荒 " 困局。

破局：布局算法供应链赛道

据了解，人工智能发展包括三个层面：第一个层面是作为上游的算力层，包括各类算力中心；第二个层面是作为下游的应用层，比如各种大模型。还有一个中游的算法层容易被市场忽视。

" 经过这两年的发展，应用层、算力层的规模和能力都跑到了算法前面。全国各地都在建算力中心，市场大模型层出不穷，但按照现有算力和应用的规模，算法供应链完成率却不到 10%。" 贵州网络数据融合创新实验室副主任容崧琼告诉记者。

AI 行业面临全国性 " 算法荒 "，但也潜藏着巨大的市场空间。基于对行业需求的观察，2023 年开始，贵州省相关部门与广西科学院进行深入交流后得出一致结论，不管是数字经济发展情况，还是政策对大数据产业的支撑力度，贵州都更有优势。先机即商机，2024 年 8 月，两地共同成立贵州网络数据融合创新实验室，并落地贵阳大数据安全产业示范区。

每个行业都有供应链，都需要原材料，人工智能行业也不例外。实验室落地贵阳经开区以来，紧紧聚焦 " 算法荒 " 行业短板，专注于做算法供应链，通过汇聚数据、治理数据，为 AI 发展提供所需数据 " 原材料 "。

算法供应链涉及生产数据、加工数据等环节，且每个环节都有着极高的数据安全需求。落地贵阳大数据安全产业示范区，依托贵阳大数据安全靶场，很好地保障了实验室的数据安全。

" 贵州孵化大模型虽没有发达地区有优势，但这边的数据供应链较强，依托这种优势，我们专注于做好算法供应链。" 容崧琼说，算法供应链的前提是拥有海量数据支撑，这也恰恰是贵州发展大数据产业多年来形成的先发优势。

得益于这种优势，实验室成立后，与相关单位打通渠道，增强数据生产、治理能力，将数据资源优势转化为算法供应链支撑能力。目前，实验室每天生产数据达到 300 亿条。

强基：千人团队解题 " 喂 "AI

海量数据本身并没有价值，如何 " 沙里淘金 "，把无效数据变成有效资产？

容崧琼介绍，实验室犹如一个 " 原料生产工厂 "，实验室组建的人才团队是 " 工人 "。实验室按照订单需求，将相应数据给到 " 工人 "，" 工人 " 对数据进行 " 加工提纯 " 后，通过贵阳大数据交易所输送到全国各地。

随着 AI 的发展，大模型训练已经不再局限于语言训练，而是包括语言识别、图像识别等在内的多模态大模型训练。因此，数据虽是资产，但真正将数据变成资产的关键是人才。

2023 年年初，大模型应用尚未全面推广时，实验室团队便预判人工智能的竞争本质是知识库的竞争，率先启动人才库储备。实验室成立后，迅速联合贵州大学建立贵州省数据标注实验室，构建专业人才梯队，以人才为核心支撑，将高校知识库转化为算法供应链的核心驱动力。

对人才的选拔，实验室设立严苛筛选机制，优中选优。学生要先报名，根据想做的算法训练参加培训和考试，考试合格后试标，试标成功率达到 95% 以上的，才能进入数据标注实验室参加数据治理。

高水平人才，解高难度题目。前两天，一个奥数题难住了解题人。两名学生紧密配合，一人负责解题，一人用程序把解题步骤写成机器语言。两人花了 4 小时，一共解了 50 多个步骤，才把题目解答出来。

目前，实验室已在贵州大学组建 1000 人的人才团队，其中 50% 以上是硕士研究生，有几十名博士研究生。今年，在贵州大学的人才团队计划扩展到 1 万人，硕士研究生要占到 60% 以上，博士研究生要占到 300 人至 500 人。数理化专业学生比例预计占 90% 以上。

此外，实验室还与兰州大学、安徽大学、桂林电子科技大学等高校完成签约，下步将继续加强与中山大学、中国科学技术大学等高校合作。每家合作高校计划组建 2000 人的团队。

为强化 AI 算法人才可持续供给，实验室构建了 " 实训 - 就业 " 的人才发展闭环。通过加强与企业合作，字节跳动等企业直接提供内推名额，团队优秀人才可获得入职大厂的机会。

开拓：数据交易规模达 2000 万元

在贵州大学数据标注实验室内，学生们正忙着解题，将解题步骤和答案转换成机器人能够识别的语言训练 AI，让豆包变得更 " 聪明 "。

" 训练 AI 的核心逻辑很清晰：谁能给它灌注更多知识，谁就能让它更聪明。" 容崧琼解释道，实验室通过与高校合作，对高校知识库深度挖掘，将数据供给师生进行 " 加工 " 后，再将 " 加工 " 好的数据 " 材料 " 喂给 AI。

今年高考后，实验室做了一项测试：将高考语文全国一卷的作文试题，让目前全球最顶尖的几款人工智能大模型进行解题作答，发现豆包的解题精准度最高。

人工智能算法供应链市场空间巨大，单一大模型平台每年的算法训练费用可达数十亿元。实验室正在为豆包等大模型提供算法支撑，为豆包提供的算法支撑力位居全国前三。

截至目前，实验室在全国的服务单位达 30 余家，包括 10 余家上市公司，以及多家科研院所。治理好的数据主要通过两条通道输出：对于豆包等有自有平台的单位直接输送给对方；其余客户通过贵阳大数据交易所进行交易。

实验室已在贵阳大数据交易所发布十余款数据产品，数据集日均交易量达数千条至数万条。实验室成立不到一周年，已成功跻身西南地区算法供应链第一梯队，截至今年 6 月，数据交易规模达 2000 万元。

今年上半年，实验室完成产值近 800 万元。2025 年，实验室将继续深化与重点高校合作，建强人才队伍，努力成为豆包大模型算法供应链团队的全国第一，致力于成为西南地区算法供应链龙头。

贵阳日报融媒体记者 黄菊

编辑段筠 /编审李枫 /签发蒲谋

相关标签