国产 Agent 进入 "NL2SQL 全球最难榜单 " 前三。
7 月 4 日,据国际权威评测基准 BIRD-Bench 官网消息,腾讯云自研的数据分析智能体 TCDataAgent 斩获全球第三的成绩,超越 IBM、Meta 等众多国际厂商,同时也是目前国内在该榜单上排名最高的排名。
来源:BIRD-Bench 官网
BIRD-Bench 以其严苛性被誉为 "NL2SQL 全球最难榜单 "。它不仅要求系统将自然语言问题(如 " 找出未通过质检的订单 ")准确翻译成 SQL 语句,更要求生成的 SQL 在真实、庞大且含 " 脏数据 " 的企业级数据库上执行结果精准且运行高效,对模型的深层语义理解和数据库真实内容感知能力提出了极高挑战。
在这个以真实业务数据库为基础的测试中,覆盖金融、医疗、体育等 37 个行业场景,数据库总容量达 33GB,查询问题超过 1 万条。TCDataAgent 在官方不公开数据集的封闭测试环境下,最终获得了 75.74 分,位居全球第三, 国内第一。
相比于传统 NL2SQL 方案往往只能依赖有限信息 " 猜测 " 用户意图,易因数据结构复杂或语义模糊出错。TCDataAgent 登榜的技术创新来源于引入了数据库约束验证机制,能够自动识别并修正 SQL 中潜在的结构性或语义性错误(如错误连接、冗余条件)。
更重要的是,它紧密结合数据库的真实内容对生成的 SQL 进行优化,显著提升了用户意图识别的准确率和翻译结果的可靠性。值得一提的是,TCDataAgent 还引入了后训练(post-training)技术,通过优先筛选并复用效果最优的 SQL 样本进行模型迭代训练,有效提升了训练样本的质量和模型学习的稳定性。
腾讯云 TCDataAgent 在 NL2SQL 领域的技术研究成果也获得了国际学术界的认可,相关论文已被今年的数据库领域顶级国际会议 VLDB 接收。论文中的实验表明,TCDataAgent 的 " 数据库内容感知 " 核心技术模块,可以无缝集成到其他 NL2SQL 系统中,最高能将查询执行准确率提升 18.3%,并在多个主流方法上实现了超过 5% 的性能提升。
作为腾讯云新一代企业级智能分析 Agent,TCDataAgent 致力于让用户直接使用自然语言对结构化和非结构化数据进行复杂的数据查询、报表生成和趋势分析等任务,目前已开启内测。
登录后才可以发布评论哦
打开小程序可以发布评论哦