智东西 06-06
新版Gemini 2.5 pro屠榜!谷歌又把o3、Claude 4和DeepSeek-R1甩在身后了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

智东西 6 月 6 日消息,谷歌今日突袭推出 Gemini 2.5 pro 的重磅更新版本 Gemini 2.5 Pro Preview 06-05 Thinking,该版本在推理能力、科学以及编程能力测试中超越 OpenAI o3、DeepSeek R1 和 Claude Opus 4,其中编程能力更是领跑 Aider Polyglot 等高难度编程基准测试。

价格方面,06-05 版本沿用了先前版本的价格策略,即每百万 token 输入(无缓存)1.25 美元(约合人民币 9 元),输出 10 美元(约合人民币 72 元)。

谷歌 CEO 桑达尔 · 皮查伊(Sundar Pichai)在海外社交媒体 X 上亲自官宣:" 我们最新的 Gemini 2.5 Pro 更新现已发布预览版 …… 我们听取了您的反馈,并对回答的风格和结构进行了改进。您可以在 Al Studio、Vertex Al 平台和 Gemini app 中进行试用。正式版即将推出!"

一、性能全面屠榜,Gemini 以 1443 分登顶 WebDevArena 榜单

在 5 月年度 I/O 开发者大会上,谷歌宣布已对 Gemini 2.5 Pro 进行静默升级。谷歌 DeepMind 首席执行官戴米斯 · 哈萨比斯(Demis Hassabis)当时评价 I/O 版本是公司迄今最佳编程模型。

而此次名为 "Gemini 2.5 Pro Preview 06-05 Thinking" 的新预览版在 05-06 版本之上进行的更新,测试表现更优,谷歌在博客中评价该版本为 " 我们迄今为止最有智慧的模型 "。谷歌还透露说,新版本 " 具备企业级应用成熟度 ",将于两周后作为稳定版面世。

Gemini 2.5 Pro Preview 06-05 Thinking 在基准测试中全面屠榜,文本、视觉、网页开发、编程、数学、创意、多轮对话、指令跟随及长查询类别等能力上均拔得头筹。

综合榜单(来源:LMArena)

有网友在用 Emoji 表情标出了 06-05 版本的表现对比,可以看出其在测试数学能力的 AIME 2025、测试代码生成的 LiveCodeBench 上并未超过 o3 和 o4-mini,视觉推理的 MMMU 榜单上也未超过 o3,仍有进步空间。

且在价格上,06-05 版本与榜单中的其他模型相比较为实惠,但仍远高于 DeepSeek R1。

从细分榜单来看,LMArena 文本基准测试中,06-05 版本的 Elo 分数较 05-06 版提升 24 分,以 1470 分保持榜首。WebDevArena 测试中,其 Elo 分数以 1443 分领先,较此前提升了 35 分。06-05 版本也领跑 Aider Polyglot 等高难度编程基准测试,超越 DeepSeek R1 等一众大模型。

WebDevArena 榜单(来源:LMArena)

在 HLE(Humanity ’ s Last Exam,人类终极测试)中,06-05 版本的成绩为 21.6%,几乎是 Claude 4 Opus 的 2 倍,GPQA 测试的成绩也同样占据榜首。这两个测试是评估数学、科学、知识及推理能力的超高难度测试,06-05 版本的亮眼成绩足以说明它的实力。

HLE 榜单(来源:Humanity ’ s Last Exam 官网)

即刻起,开发者们可以从谷歌 AI Studio 和 Vertex AI 平台接入 Gemini API 体验最新版本,谷歌还在这两个平台上新增了 " 思考预算 " 功能,优化成本与延迟控制。同时,新版本也将在 Gemini 应用上逐步推出。

二、Gemini 新版被玩出花了

06-05 版本一经推出就有许多开发者和用户进行体验尝鲜。

首先是图像生成方面,皮查伊自己用 Gemini 生成了一张狮子的特写照片,图片十分生动:

卡通动画风也是不在话下:

编程方面:Android studio 提示 Gemini 2.5 Pro Preview 06-05 Thinking 创建一个用户个人资料图片,要求包含:Android Jetpack Compose 代码,能够生成类似该用户个人资料图片的代码以及导入语句、Material3 和代码文档,结果十分惊艳:

有网友要求 06-05 版本编写一个 Python 程序,模拟随机车流量单行道上的交通信号灯运作过程:

还有网友要求 06-05 版本编写一个 "3D 球体 " 代码来展示它的能力,结果它仅凭一句指令就生成了这个交互式粒子系统,让网友直呼 " 这不可能是真的!"

结语:大模型进入快迭代时代

此前,DeepSeek 和 OpenAI 的推理模型曾主导行业关注焦点,智东西不久之前曾报道 DeepSeek-R1-0528 开源,其性能接近 OpenAI 在 4 月中旬发布的 o4 mini 和 o3 模型高版本。谷歌此番更新更是迎头赶上,全面屠榜,基准测试结果超越 DeepSeek R1 和 OpenAI 的 o3、o3-mini 和 o4-mini。

Gemini 2.5 Pro 初代版本于 3 月发布时,Venture Beat 的马特 · 马歇尔(Matt Marshall)就称其为 " 最被低估的智能模型 "。这一评价很快得到验证,凭借 2.5 Pro 及其两个升级版本的快速迭代,谷歌不仅大幅提升了模型的多模态理解、长文本推理和代码生成能力,更在大语言模型性能基准测试中多次超越竞品。

如今大模型的迭代周期越来越短,基准测试榜单的头把交椅也时常易主。AI 较量的白热化提醒我们,大模型从一开始的大爆发时代已经进入快迭代时代。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 突袭 编程 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论