驱动之家 1小时前
超越Gemini3、GPT5.1!阿里千问登顶空间推理全球冠军
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 11 月 26 日消息,今日,空间推理基准测试 SpatialBench 更新了最新一期榜单,阿里千问的视觉理解模型 Qwen3-VL、Qwen2.5-VL 位列头两名,超越 Gemini 3、GPT-5.1、Claude Sonnet4.5 等国际顶尖模型。

SpatialBench 榜单显示,Qwen3-VL-235B 和 Qwen2.5-VL-72B 分别斩获 13.5 和 12.9 分,领先于 Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5 等海外顶尖模型。

然而,AI 大模型的整体表现距离人类仍有差距,人类基准线约为 80 分左右,可专业处理电路分析、CAD 工程和分子生物学等复杂空间推理任务,目前大模型还无法完全自动化完成此类工作。

据悉,Qwen2.5-VL 于 2024 年开源,Qwen3-VL 是阿里在 2025 年开源的新一代视觉理解模型。

Qwen3-VL 在视觉感知和多模态推理方面实现重大突破,在 32 项核心能力测评中超过 Gemini2.5-Pro 和 GPT-5,不但可调用抠图、搜索等工具完成 " 带图推理 ",也可以凭借一张设计草图或一段小游戏视频直接 " 视觉编程 "。

同时,Qwen3-VL 专门增强了 3D 检测能力,可以更好地感知空间,基于 Qwen3-VL,机器人更好地判断物体方位、视角变化和遮挡关系,实现远处苹果的精准抓取。

目前,Qwen3-VL 已开源不同版本,包括 2B、4B、8B、32B 等密集模型以及 30B-A3B、235B-A22B 等 MoE 模型,每个模型都有指令版和推理版两款,是当下最受企业和开发者欢迎的开源视觉理解模型。同时,Qwen3-VL 模型也已上线千问 APP,用户可免费体验。

据了解,SpatialBench 是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被 AI 社区视为是衡量 " 具身智能 " 进展的新兴测试标准之一。

SpatialBench 不仅测试模型已知的知识,还测试模型在二维和三维空间中 " 感知 " 和操控抽象概念的能力,这对具身智能的落地尤为关键。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

阿里 开源 ai 小游戏 机器人
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论