今日凌晨,阿里旗下的通义千问推出了一款视觉推理模型—— QVQ-Max,Qwen 团队称该模型具备理解图片与视频内容的能力,并且还能根据所提供的信息展开分析推理。
我们目前所用到的常见大模型虽然也能上传图片,但是只能识别图片里的文字,对画面图形则缺少概念,因此不能算作视觉推理模型,QVQ-Max 则着重提升了这一点。
" 例如,在一道几何题中,它可以根据题目附带的图形推导出答案;在一段视频里,它能根据画面内容推测出接下来可能发生的情节。"
不过光看千问团队的宣传好像也感觉不出来到底有多厉害,不如咱们直接来给它上上强度。
热点科技这里准备了几道公务员行测的图形推理模拟题,来看看 QVQ-Max 到底能不能给出正确答案。
首先我们在 QWEN CHAT 平台选择这一模型,将从网上收集到的题目图片上传,直接询问答案。不过需要注意的是,或许是由于该模型今天才上线,在上传题目图片时总是提示网络错误,稍后再试。大家可能需要耐心点多试几次。
第一题如图,QVQ-Max 响应很快,但是想的好像有点多,思考了足足 3500 个汉字才给出答案 D 选项,但是回答错误,正确答案是 B。
一题好像并不能证明实力,咱们又上传了新的一题,看看 QVQ-Max 能不能一雪前耻。不过这一题对于 QVQ-Max 来说好像有点困难,竟然思考了多达 6000 个汉字才给出答案,仍然是 D 选项,仍然是错误的,正确答案是 B。
最后一次,再来一题。好在这次结果还算好,QVQ-Max 给出了正确的答案 B 选项,但是思考时间实在太长,依然足足有 6000 个汉字,等待时间接近十分钟,如果 QVQ-Max 去考试,恐怕没做完题目就要收卷了。
看起来行测的图形推理题目对于 QVQ-Max 来说有点超纲,本想试着上传一段视频,测测 QVQ-Max 的视频能力,但是显示一直上传失败,只得作罢。有兴趣的朋友可以自行去测试一下 QVQ-Max 的其他能力噢。
根据 Qwen 团队的解释,QVQ-Max 目前只是第一版,还有很多提升空间。希望 Qwen 团队加把劲,让 QVQ-Max 早日拿捏行测图形推理。
登录后才可以发布评论哦
打开小程序可以发布评论哦