每日经济新闻 03-26
谷歌Gemini 2.5 Pro上线即“屠榜”!每经记者实测:可轻松模拟火星登陆,快速制作小游戏,但审美能力有待提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

图片来源:谷歌博客

当地时间 3 月 25 日,谷歌正式揭开其下一代 AI 模型系列—— Gemini 2.5 的神秘面纱,宣称这是其迄今为止 " 最智能的 AI 模型 "。

首个发布的版本被命名为 Gemini 2.5 Pro Experimental(以下简称 "Gemini 2.5 Pro")。谷歌表示,Gemini 2.5 Pro 支持 100 万个 token 的上下文窗口,这意味着 AI 模型能一次性处理相当于两本《红楼梦》字数的文本量。 

该模型一经发布,便在各大基准测试上全面 " 屠榜 ",在所有测试中都稳居第一名的位置,包括常见的编程、数学和科学基准测试。

谷歌 Deepmind 首席技术官 Koray Kavukcuoglu 在博客中写道:" 现在,通过 Gemini 2.5,我们结合了显著增强的基础模型和改进后的后续训练,实现了全新的性能水平。未来,我们将把这种思维能力直接构建到我们所有的模型中,使其能够处理更复杂的问题,并支持更强大、更具情境感知能力的智能体。"

《每日经济新闻》记者(以下简称 " 每经记者 ")也在第一时间对 Gemini 2.5 Pro 进行了测试,测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。

测试结果显示,该模型在科学类问题和编程方面实力强大,用户只要会打字,就能进行编程。而且,生成速度极快,质量良好。与每经记者之前测试的多款大模型相比,Gemini 2.5 Pro 在测试过程中几乎没有出现 bug。不过,在网页设计审美和玩家体验等方面,该模型还有提升的空间。 

Gemini 2.5 Pro 上线即 " 屠榜 "

当地时间 3 月 25 日,谷歌宣布推出全新 AI 模型系列—— Gemini 2.5。谷歌首席科学家 Jeff Dean 表示,Gemini 2.5 是该公司最智能的模型,具有令人印象深刻的高级推理和编码能力。

Gemini 2.5 系列属于 " 思考模型 ",这意味着该模型在生成最终回应之前,能够进行内部的 " 思考 " 或推理过程。谷歌表示,这种能力旨在显著提升模型的性能表现和答案的准确性,是谷歌在强化学习、思维链提示技术领域长期深耕,以及对早期 " 思考 " 模型(如 Gemini 2.0 Flash Thinking )持续探索的重要成果。

Gemini 2.5 Pro 是这一系列模型的首发产品。谷歌表示,Gemini 2.5 Pro 支持 100 万个 token 的上下文窗口,这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。并且,谷歌承诺,Gemini 2.5 Pro 很快将支持两倍的上下文窗口(即 200 万个 token)。

目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用中推出,向 Gemini Advanced 用户开放,并将很快在 Vertex AI 上推出。

一经发布,Gemini 2.5 Pro 便以出色的性能吸引了外界的广泛关注。谷歌在博客中强调,Gemini 2.5 Pro 在一系列行业基准测试中达到了 " 最先进水平 "(state-of-the-art),包括常见的编程、数学和科学基准测试。

在 " 人类的最后考试 " 测试中,它获得了 18.8% 的最高分数,这是目前为止所有未使用(外接工具)的大模型中最好的成绩。" 人类最后的考试 " 是一个由全球近千名专家共同设计的多模态基准测试,旨在评估大型语言模型的能力极限。该测试包含 3000 道涵盖数学、人文学科和自然科学等多个领域的前沿问题。

" 人类的最后考试 " 测试   图片来源:谷歌官网

在专注于人类理解的大模型竞技场测试中,Gemini 2.5 Pro 也以创纪录的优势拔得头筹,创下了历史最大的分数跨越,比 Grok-3 和 GPT-4.5 高出 40 多分。

图片来源:大模型竞技场

具体来看,在代号为 "nebula" 的测试中,Gemini 2.5 Pro 横扫所有类别,夺得第一,独揽数学、创意写作、指令遵循、长查询和多轮对话这五大领域的冠军;

图片来源:X 平台截图

在人类偏好测试中,Gemini 2.5 Pro 同样是在所有类别中问鼎榜首,只在困难提示和编码领域与 Grok-3/GPT-4.5 拿到并列冠军。

人类偏好测试   图片来源:大模型竞技场

在网页开发领域,Gemini 2.5 Pro 也是脱颖而出,在 WebDev Arena 上排名第二,它较上一代 Gemini 有了巨大的飞跃,超越了 Claude 3.5 Sonnet,是第一款能与 Claude 抗衡的模型,但仍低于 Claude 3.7 Sonnet。

WebDev Arena 测试   图片来源:大模型竞技场

在 Vision Arena(视觉竞技场)测试中,作为多模态模型的 Gemini 2.5 Pro 也处于领先的位置。

Vision Arena 测试 图片来源:大模型竞技场

记者实测:编程方面实力强大,但审美及玩家体验待提升

每经记者第一时间对 Gemini 2.5 Pro 进行了测试,测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。

数学问题

每经记者抛出的是一个博士资格考试的群论数学问题:有多少个 147 阶的非同构群?

Gemini 2.5 Pro 在数量和具体的非同构群上都给出了完美的解答。值得一提的是,此前记者也用这一问题对其他大模型进行了测试,Grok3、o3-mini 和 DeepSeek-R1 都或多或少出现了错误,不是数量没找对,就是具体的非同构群出错。 

火星登陆模拟

接下来,每经记者测试的是 Gemini 2.5 Pro 在数学和物理方面的综合能力。测试选择的是马斯克的经典问题:绘制一个登陆火星并返回的火箭轨道图。

Gemini 2.5 Pro 给出了一个完成度超高的动态图像,包含任务天数、具体轨道示意图等要素。并且,它还称,这只是一个简单版本,如果允许它接入天体数据库的话,它还可以制作一个更准确的版本出来。

网页开发

在前端设计方面,每经记者要求它设计一个有互动性的世界风光介绍网站。

Gemini 2.5 Pro 输出了一个完整的网站,并且带有景点介绍和互动地图探索相关功能。但是,在具体细节上,它犯了很多小错误,例如,景点介绍的图片不仅单一,而且还都是不相关的内容。此外,整体网页设计的色调也不甚美观。

小游戏制作

最后,每经记者让 Gemini 2.5 Pro 制作一个类似于 flappy bird 的小游戏,标准是卡通画风,背景要随游玩时间变换,玩家主角要是一个小飞象,要有有趣的玩法创新。

在短暂的思考后,Gemini 2.5 Pro 输出了完成这个游戏需要的 500 多行代码。这一游戏非常完美地契合了每经记者给出的描述,并且对玩法创新的模糊描述也给出了良好的回应,自行思考出了无敌道具玩法,吃下金花生就可以在短时间内无敌。

更重要的是,这一游戏并没有出现任何 bug,只需要复制粘贴就可以流畅运行。

在此前的大模型测试中,第一次的输出结果或多或少会出现一些 bug,影响游戏体验。不过,还是要指出的一点是,Gemini 2.5 Pro 只考虑了背景变化的要求,却没注意到其生成的游戏背景图案中,云朵变化速度过快,太费眼睛。

综上,每经记者认为,Gemini 2.5 Pro 在科学类问题和编程等硬实力上实力满满,但在审美和玩家体验等软实力上还有一点欠缺。

每日经济新闻

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 小游戏 编程 红楼梦
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论