中国经营报 14小时前
725.4T Token:首个“词元”计量数据产权登记落地
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

中经记者 许璐 李晖 北京报道

当人工智能产业开始以 Token 计算调用量、成本和商业回报时,数据资产登记环节也开始引入新的计量口径。

近日,青岛华大基因研究院 " 青岛华大千种海洋生物基因测序数据资源集 " 在青岛数据集团所属青岛数据资产登记评价中心完成数据产权登记。该数据资产主体为青岛华大基因研究院,计量单位为 " 词元 ",词元规模为 725.4T Token。

对于词元计量的作用,青岛华大基因研究院副院长徐梦阳在接受《中国经营报》记者采访时表示,词元计量剔除了无效的 " 噪音 ",真正反映了数据中蕴含的 " 语义有效性 " 和知识密度。

" 我们能够清晰评估出 7000 余万元的市场价值,关键就在于在计量中提供了‘词元’这一颗粒度极细的核算基础。可以准确计算每一个基因特征从测序、组装到功能注释的全流程投入,并结合其在生物医药靶点、合成生物学元件等应用场景中的预期收益贡献进行折现。" 徐梦阳说。

从 " 条数 "" 容量 " 到 " 词元 "

在传统数据资产登记、流通和交易中,结构化数据多以条数为计量单位,文本、图像等非结构化数据则以文件大小,即 MB、GB 等存储容量为计量单位。

" 对基因测序数据之类的非结构化数据而言,传统计量方式难以反映其作为 AI ‘燃料’的真实颗粒度。" 徐梦阳指出。

词元是大模型处理信息的基本单位。国家数据局局长刘烈宏在 2026 年 3 月份的 " 中国发展高层论坛 2026 年年会 " 中明确 "Token" 的中文名为 " 词元 ",具有可计量、可定价、可交易等特征。不仅是智能时代的价值锚点,更是连接技术供给与商业需求的 " 结算单位 ",为商业模式的落地提供了可量化的可能。

从产业数据看,词元调用规模正在快速增长。公开数据显示,2024 年年初,我国日均 Token 调用量为 1000 亿;到 2025 年年底,跃升至 100 万亿;到 2026 年 3 月,已超过 140 万亿,两年增长超千倍。自 2026 年 1 月底以来,有的模型企业创下 20 天收入超越 2025 年全年总收入的业绩纪录。

在此次登记中,基因序列与词元之间建立了具体对应关系。对于此次以 " 词元 " 为核心计量单位进行登记的计量方法,青岛数据集团首席数据官赵传启表示:" 在本次华大基因的登记中,以词元为计量单位,代替传统的条数、字段数、存储容量等概念,以 1 个碱基对对应 1 个词元(1bp =1Token),直接体现该数据的信息密度,衡量出的总词元规模为 725.4T Token。"

在徐梦阳看来,基因序列中的 A、T、C、G 本质上是大自然写下的代码。A、T、C、G 分别对应 DNA 遗传序列中的腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤四种基本核苷酸。

" 我们将 1 个碱基对直接映射为 1 个词元,相当于把青岛华大全球最大海洋基因库里的数据,直接转化为 AI 模型可以‘阅读’和‘理解’的标准化语料。例如,本次入表的大生物基因组,就包含了约 1600 亿个词元。选择‘词元’作为单位,是因为这能让我们的海洋生物数据无缝对接全球顶级的人工智能计算范式。" 徐梦阳表示。

词元计量进入登记环节后,也对评价模型提出了适配要求。赵传启表示,为适配词元和基因数据,相关评价指标和算法进行了优化,引入了 BUSCO 完整度、QV 值、ContigN50 等指标衡量基因组数据质量,并以词元计量基因数据的信息熵和各物种在总样本中的权重。

对于此次数据集登记完成的意义,赵传启表示,词元计量方法,能够解决不同格式、不同行业的数据各有各的计量标准的问题,为结构化数据,文本、影像视频、生物基因等非结构化数据,多模态数据提供统一的度量衡,并适配大模型、智能体的计量方法,为数据赋能大模型应用进一步铺平路径。

在一些业内人士看来,基因数据是非结构化数据中专业门槛较高、信息密度较大的类型之一。此次案例如果能够在确权登记、计量评价、授权使用和收益分配等环节形成可复制路径,将为医疗、教育、传媒、工业、交通等领域的非结构化数据资产化提供参考。

词元计量进入数据要素流通链条

从数据流通链条看,产权登记解决的是 " 数据是谁的、能否登记、如何描述 " 的问题;计量评价解决的是 " 数据有多少、如何衡量 " 的问题;交易运营解决的是 " 数据如何使用、如何定价 " 的问题;收益分配解决的是 " 使用后如何分账 " 的问题。此次案例中,词元计量被用于产权登记、评价模型、贡献度核算和收益分配等环节。

公开信息显示,此次登记的数据资源集源自青岛自贸片区 " 千种海洋生物基因测序 " 项目。2023 年 9 月,青岛华大基因研究院承接该项目后,依托自有高通量测序平台完成本土物种测序,同时整合 NCBI、EBI、JGI 等国际公开数据库资源,经过数据清洗、组装、标注和全流程质检,最终形成覆盖上千种海洋生物基因组信息的数据资源集。

对于该数据资源集从原始测序到最终形成的过程,赵传启表示,在数据采集处理环节,主要涉及样本采集与 DNA 提取得到原始的 DNA 序列,然后进行数据清洗、组装、标注和校验,形成最终的基因组。

" 在权属上,华大基因研究院自主开展加工处理,形成最终的基因组数据,并对此拥有持有权、使用权和经营权。同时,委托第三方律师事务所对公司主体、数据来源、数据内容、加工处理过程进行全面的合规审查,并确认其在此过程中实质性投入了大量资金、技术、人力、算力、场地等资源。" 赵传启进一步表示。

除登记计量外,词元也被用于科研协作中的贡献度核算。" 从科研创新的角度看,过去科学家之间的合作,数据的提供方和使用方很难精准界定各自的贡献比例,这也是制约数据开放共享的一大痛点。我们首创了‘数据量占 40%+ 稀缺性占 30%+ 应用价值占 30% ’的贡献度评分模型,其中数据量维度的基础就是词元数量。这样一来,无论是与国内机构联合开发新酶,还是在国际海洋基因组学联盟框架下协作,每一份智力投入都能被量化,收益分配变得透明公平。" 徐梦阳说。

对于该数据资源集后续是否进入数据交易、授权运营或产业应用环节,赵传启表示,该项数据可应用于蛋白质预测、工业菌株基因编辑靶点挖掘、合成生物学元件设计、濒危物种遗传多样性评估和海洋生态保护等多类场景,涉及数据交易和产业应用,也可以由华大基因授权第三方开展运营。

从流通方式看,徐梦阳认为,词元计量可以驱动 " 按需调用 " 的数据流通,孕育海洋科研的 " 微服务 " 生态。

" 在流通使用上,词元计量带来了前所未有的灵活性。一位寻找新型抗菌肽的研究者,完全可以只精准调用、只为他所需要的那部分代谢通路基因词元付费,无须购买其他冗余信息。这种‘按量授权、按词元计费’的微服务生态,大幅降低了中小型创新企业和科研团队获取顶尖海洋数据的门槛。" 徐梦阳说。

此次登记完成后,生物制造、海洋药物和生态保护等都是海洋生物基因数据的后续使用场景。

对于海洋生物基因测序数据的产业价值体现,徐梦阳表示,在生物制造领域,已有耐高温测序酶、高活性漆酶等直接应用于环保和工业生产。在海洋药物方面,数据集提供了大量抗癌、抗衰老的先导化合物线索,可以帮助合作方缩短新药筛选周期。在生态保护上,它提供了一套高分辨率的基线,可以精准监测江豚等濒危物种的动态。

围绕高价值遗传数据流通,数据安全也是后续产业应用中的重要环节。徐梦阳表示,青岛华大基因研究院设计了一套安全的输出机制:不交易原始数据,而是交易基于数据训练出的 AI 模型能力。

" 在资产化的第一步,我们已经剥离了物种的地理位置、生物属性等标注信息,将数据彻底转化为纯粹的生命语言片段,这在技术上是完全不可逆转、不可追溯的。对外合作时,青岛华大基因研究院交付的是像‘ ACCESS 蛋白功能预测模型’或‘ ThermoMod 酶最适反应温度预测模型’这样的 AI 模型,而不是原始序列。大模型本身的‘黑盒化’特征,构成了一道天然的安全护城河。" 徐梦阳说。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论