量子位 | 公众号 QbitAI
科研人不容易。
3 年投稿 6 次全被拒,每次等反馈要半年??
机器学习大佬吴恩达听说这位学生的 " 水逆 " 遭遇后,亲手搓了个免费的 AI 论文评审智能体出来。

通过在 ICLR 2025 审稿数据上训练系统,并在测试集中对比发现,该 AI 审稿系统与人类审稿的相关系数达 0.42,和人与人审稿间的 0.41 相近甚至还高一点。
也就是说,AI 评审的判断已经和人类之间相互评审的一致性相当了。

对此,有网友表示:与其等 6 个月被拒,还不如几分钟内就被拒!

毕竟早拒早改早提交(doge)。
AI 评分和人类评分趋于一致
而且传统评审每轮反馈要等上数月,可收到的评论大都聚焦在 " 评判论文值不值得发表 " 上,却很少给出如何修改的具体建议。

而吴恩达的这款 AI 论文评审智能体,恰恰精准戳中这个痛点!
首先说一下它的 " 审稿 " 流程。
当你提交论文时,可以选你投的是哪个期刊 / 会议,系统就会根据那个会议的评审风格来判断。

它会把你提交的 PDF 转成 Markdown,确认这是学术论文后,自动提炼出一些关键词,比如你实验用了什么标准、你的题目和哪些现有论文类似。
然后用搜索工具去 arXiv 上找最新的相关研究,接着挑出最相关的论文进行总结,之后结合原文和这些总结,按模版给出完整的评审意见,同时提一些具体的、能操作的修改建议。
为了让这个系统更实用,团队还训练它模仿 ICLR 2025 的评审给论文打 1-10 分。
具体是先从原创性、研究问题重要性、结论是否有依据等 7 个维度打分,再用模型算出最终分数。
测试发现,AI 和人类审稿人的评分相关性是 0.42,人类之间的相关性才 0.41,说明这个 AI 快赶上人类水平了……
不过预测论文能不能被录用时,人类评分的准确率有 0.84,还是比 AI 的 0.75 高一些。
下面这张图片是 AI 和人类评审的校准图。

其中蓝色柱子展示了人类评分的分布情况,能看到人类评分在 4、5、6、7 分区间较为集中。
橙色折线则代表在对应人类评分区间内,AI 评分≤ 5.5 的比例,从图中可知,随着人类评分的升高,AI 评分≤ 5.5 的比例逐渐下降。
总结来说就是,AI 评分≤ 5.5 的比例随人类评分升高而显著降低,说明AI 评分在一定程度上能与人类评分的趋势保持一致。
也就是说,这个 AI 评审真能在一定程度上反映你的论文中稿几率。
当然了,AI 审稿主要参考 arXiv 上的内容,最终的结果可能会有误差。并且,虽然 AI 审稿快,但也不是立马能拿到结果。
实际上我们也上传了一篇论文,但目前的结果是稍等稍等稍等……
好消息是,我没有被 AI 几分钟就拒稿(doge)。

OMT
根据吴恩达的说法,这个 AI 论文自动评审智能体是斯坦福大学博士 Yixing Jiang 进行改进的。

他还曾在谷歌 DeepMind 实习过 7 个月。



登录后才可以发布评论哦
打开小程序可以发布评论哦