腾讯新闻牵头发布TRACE严选框架补齐AI Skill生态质量短板

2026 年，AI 应用层迎来 " 寒武纪 " 式爆发，Skill 生态快速崛起，全民创作时代随之到来。但在繁荣背后，安全隐患、效果虚标、成本失控等问题凸显，海量 Skill 良莠不齐，导致用户难以分辨优劣。5 月 21 日，由腾讯科技、SkillHub、腾讯玄武实验室联合打造的国内首个面向 AI Skill 生态的系统性严选评测体系—— TRACE 严选框架正式发布，通过系统、科学的五维标准，为行业筛选安全、好用、高性价比的优质 Skill，护航 AI 生态健康发展。

全民创作时代来临 TRACE补齐AI生态质量短板

2008 年，苹果 App Store 上线，其应用数量在一年内实现从 500 到 10 万 + 的跃增。这一年被称为 " 移动互联网的供给侧元年 "，能力生产者首次从科技公司转向普通开发者。18 年后，相似的增长曲线在 AI 领域以更快的速度、更低的门槛上演。截至 2026 年 5 月，距离 Agent Skills 正式推出仅半年，SkillHub 平台上的 Skill 数量已突破 5 万个。这一次，生产者无需具备开发背景，只要会用自然语言与 AI 交互，就能创作 Skill。

这场爆发的起点，是 2024 年发布的 MCP 协议，它如同大模型的 "USB 接口 "，打通跨模型能力调用。随后推出的 Agent Skills 进一步降低门槛：一个文件夹、一份说明文档，即可生成可用 Skill。然而，当 AI 能力供给主体从开发者转向普通用户、人人都能创作 Skill 时，与之对应的 " 质量基础设施 " 几乎空白。用户仅能依靠下载量、星标判断优劣，无法辨别 Skill 实际效果、资源消耗与安全风险。

基于此，腾讯科技、SkillHub、腾讯玄武实验室三方联合发布 TRACE 严选框架，以安全可信、运行可靠、场景适用、结构规范、效果增益五大维度，构建全链路严选机制。其中，腾讯新闻科技作为媒体及核心发起方，将持续推动 TRACE 框架的行业认知与普及，并将基于该框架推出月度编辑精选榜单，为行业提供优秀 Skills 的案例及实用参考；SkillHub 以国内最丰富的技能池为样本来源，根据行业生态和技术演进，持续迭代 TRACE 评测体系；腾讯玄武实验室则负责搭建自动化评估系统，通过对照实验、AI 沙盒环境等创新方式，为 TRACE 评分中的特定维度给出立体评价。

五维严选科学评测 " 好 Skill" 每月推出TOP10精选榜单

TRACE 摒弃简单打分，将 AI Skill 真实使用链路拆解为可持续运行的严选机制，通过五大维度全面评测优质、实用、高性价比的 Skill 价值。安全可信（T）是不可逾越的红线，重点排查数据泄露、越权访问、远程执行、代码混淆等高风险，触碰红线直接淘汰；运行可靠（R）考察标准环境下的稳定性与交付完整性，规避崩溃、超时、依赖缺失等问题；场景适用（A）评估 Agent 能否精准识别并调用 Skill，避免命名或描述不清导致的调用失效；结构规范（C）核查文档与目录结构清晰度，确保 Skill 具备长期可维护性。

效果增益（E）是核心价值维度。TRACE 引入科学对照实验机制，即在同一任务下，分别测试 " 启用 Skill" 与 " 仅用原生模型 " 的表现。只有当 Skill 带来显著真实增益，且 Token 消耗、执行耗时处于合理范围，才被视为合格。这种机制可有效避免将模型本身的能力误判为 Skill 的贡献。

为保证结果公正，TRACE 采用客观对照 + 主观盲评双轨方法：客观层面做对照实验、留存完整证据，避免把模型能力误判为 Skill 功劳；主观层面由旗舰模型模拟专业评审，对两组产出盲评，聚焦实际交付价值。同时，为解决全量评分不可持续、头部效应垄断问题，TRACE 采用每月一期、每期 10 款编辑精选模式。评测全程统一底层模型与 Openclaw 框架，确保评分纯粹反映 Skill 本身质量。

值得一提的是，TRACE 框架是 " 第一个成熟版本 "，而非最终版本。随着模型能力迭代与用户需求升级，其权重、子项及评测方式将持续优化。尽管行业戏称 " 人间才一日，AI 已千年 "，Skill 未来形态尚无定论，但可预见的是：通用认知类能力终将被模型内化，流程、权限、标准、安全、可审计类 Skill 将长期沉淀。未来，腾讯新闻科技将持续牵头，依托动态迭代的 TRACE 框架，让好 Skill 留下价值痕迹，推动 AI Skill 生态健康可持续发展。

宙世代

一起剪

相关标签