2026 年,AI 应用层迎来 " 寒武纪 " 式爆发,Skill 生态快速崛起,全民创作时代随之到来。但在繁荣背后,安全隐患、效果虚标、成本失控等问题凸显,海量 Skill 良莠不齐,导致用户难以分辨优劣。5 月 21 日,由腾讯科技、SkillHub、腾讯玄武实验室联合打造的国内首个面向 AI Skill 生态的系统性严选评测体系—— TRACE 严选框架正式发布,通过系统、科学的五维标准,为行业筛选安全、好用、高性价比的优质 Skill,护航 AI 生态健康发展。

全民创作时代来临 TRACE补齐AI生态质量短板
2008 年,苹果 App Store 上线,其应用数量在一年内实现从 500 到 10 万 + 的跃增。这一年被称为 " 移动互联网的供给侧元年 ",能力生产者首次从科技公司转向普通开发者。18 年后,相似的增长曲线在 AI 领域以更快的速度、更低的门槛上演。截至 2026 年 5 月,距离 Agent Skills 正式推出仅半年,SkillHub 平台上的 Skill 数量已突破 5 万个。这一次,生产者无需具备开发背景,只要会用自然语言与 AI 交互,就能创作 Skill。
这场爆发的起点,是 2024 年发布的 MCP 协议,它如同大模型的 "USB 接口 ",打通跨模型能力调用。随后推出的 Agent Skills 进一步降低门槛:一个文件夹、一份说明文档,即可生成可用 Skill。然而,当 AI 能力供给主体从开发者转向普通用户、人人都能创作 Skill 时,与之对应的 " 质量基础设施 " 几乎空白。用户仅能依靠下载量、星标判断优劣,无法辨别 Skill 实际效果、资源消耗与安全风险。

基于此,腾讯科技、SkillHub、腾讯玄武实验室三方联合发布 TRACE 严选框架,以安全可信、运行可靠、场景适用、结构规范、效果增益五大维度,构建全链路严选机制。其中,腾讯新闻科技作为媒体及核心发起方,将持续推动 TRACE 框架的行业认知与普及,并将基于该框架推出月度编辑精选榜单,为行业提供优秀 Skills 的案例及实用参考;SkillHub 以国内最丰富的技能池为样本来源,根据行业生态和技术演进,持续迭代 TRACE 评测体系;腾讯玄武实验室则负责搭建自动化评估系统,通过对照实验、AI 沙盒环境等创新方式,为 TRACE 评分中的特定维度给出立体评价。
五维严选科学评测 " 好 Skill" 每月推出TOP10精选榜单
TRACE 摒弃简单打分,将 AI Skill 真实使用链路拆解为可持续运行的严选机制,通过五大维度全面评测优质、实用、高性价比的 Skill 价值。 安全可信(T)是不可逾越的红线,重点排查数据泄露、越权访问、远程执行、代码混淆等高风险,触碰红线直接淘汰;运行可靠(R)考察标准环境下的稳定性与交付完整性,规避崩溃、超时、依赖缺失等问题;场景适用(A)评估 Agent 能否精准识别并调用 Skill,避免命名或描述不清导致的调用失效;结构规范(C)核查文档与目录结构清晰度,确保 Skill 具备长期可维护性。
效果增益(E)是核心价值维度。TRACE 引入科学对照实验机制,即在同一任务下,分别测试 " 启用 Skill" 与 " 仅用原生模型 " 的表现。只有当 Skill 带来显著真实增益,且 Token 消耗、执行耗时处于合理范围,才被视为合格。这种机制可有效避免将模型本身的能力误判为 Skill 的贡献。

为保证结果公正,TRACE 采用客观对照 + 主观盲评双轨方法:客观层面做对照实验、留存完整证据,避免把模型能力误判为 Skill 功劳;主观层面由旗舰模型模拟专业评审,对两组产出盲评,聚焦实际交付价值。同时,为解决全量评分不可持续、头部效应垄断问题,TRACE 采用每月一期、每期 10 款编辑精选模式。评测全程统一底层模型与 Openclaw 框架,确保评分纯粹反映 Skill 本身质量。
值得一提的是,TRACE 框架是 " 第一个成熟版本 ",而非最终版本。随着模型能力迭代与用户需求升级,其权重、子项及评测方式将持续优化。尽管行业戏称 " 人间才一日,AI 已千年 ",Skill 未来形态尚无定论,但可预见的是:通用认知类能力终将被模型内化,流程、权限、标准、安全、可审计类 Skill 将长期沉淀。未来,腾讯新闻科技将持续牵头,依托动态迭代的 TRACE 框架,让好 Skill 留下价值痕迹,推动 AI Skill 生态健康可持续发展。


登录后才可以发布评论哦
打开小程序可以发布评论哦