IT之家 5小时前
OpenAI推出GeneBench-Pro基准测试,用于评估AI生物学计算能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 7 月 1 日消息,OpenAI 宣布推出 GeneBench-Pro 基准测试,主要用于评估 AI 模型在生物学计算任务中的真实研究能力,重点衡量模型面对杂乱数据时的分析判断、方法选择,以及研究结果是否足以支撑后续决策。

据介绍,相比传统基准测试通常聚焦在 " 模型是否记住知识 " 或 " 能否按固定流程完成任务 ",GeneBench-Pro 更强调在真实科研环境中的实用性,让模型面对 " 模糊、不完整、甚至带有干扰的数据环境 ",令其判断分析得出结论。

具体来看,GeneBench-Pro 基准测试任务覆盖基因组学、定量生物学和转化医学等多个方向,总共包含 129 道题目,分布在 10 个大领域和 21 个子领域,涵盖范围包括统计遗传学、群体遗传学、功能基因组学、蛋白质组学等,每道题都会给模型一份接近真实科研环境的数据集,以及简短的实验背景说明和一个与后续决策相关的目标问题。模型需要自己完成数据探索、选择分析方法,并在过程中不断修正策略,最终给出答案。

为了避免传统长流程基准测试常见的评分偏差问题,OpenAI 在设计 GeneBench-Pro 时采用了合成数据(Synthetic Data)作为核心构建方式,这是因为如果直接用历史真实数据出题,往往会存在多条合理分析路径,导致模型即便利用错误方法也可能碰巧答对。

而利用合成数据,OpenAI 可以完全掌握底层因果结构和数据生成过程,从而更准确地判断模型是否真的理解问题,而不是走捷径。

目前,OpenAI 已经在 Hugging Face 开源了 10 道代表性的 GeneBench-Pro 示例题,并提供可交互界面供外部研究人员体验。后续官方会开放其中 50 道题给 Artificial Analysis 进行第三方独立评测,以验证不同模型在这一基准测试中的实际表现。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

生物学 科研 医学 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论