图片来源:谷歌博客
当地时间 3 月 25 日,谷歌正式揭开其下一代 AI 模型系列—— Gemini 2.5 的神秘面纱,宣称这是其迄今为止 " 最智能的 AI 模型 "。
首个发布的版本被命名为 Gemini 2.5 Pro Experimental(以下简称 "Gemini 2.5 Pro")。谷歌表示,Gemini 2.5 Pro 支持 100 万个 token 的上下文窗口,这意味着 AI 模型能一次性处理相当于两本《红楼梦》字数的文本量。
该模型一经发布,便在各大基准测试上全面 " 屠榜 ",在所有测试中都稳居第一名的位置,包括常见的编程、数学和科学基准测试。
谷歌 Deepmind 首席技术官 Koray Kavukcuoglu 在博客中写道:" 现在,通过 Gemini 2.5,我们结合了显著增强的基础模型和改进后的后续训练,实现了全新的性能水平。未来,我们将把这种思维能力直接构建到我们所有的模型中,使其能够处理更复杂的问题,并支持更强大、更具情境感知能力的智能体。"
《每日经济新闻》记者(以下简称 " 每经记者 ")也在第一时间对 Gemini 2.5 Pro 进行了测试,测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。
测试结果显示,该模型在科学类问题和编程方面实力强大,用户只要会打字,就能进行编程。而且,生成速度极快,质量良好。与每经记者之前测试的多款大模型相比,Gemini 2.5 Pro 在测试过程中几乎没有出现 bug。不过,在网页设计审美和玩家体验等方面,该模型还有提升的空间。
Gemini 2.5 Pro 上线即 " 屠榜 "
当地时间 3 月 25 日,谷歌宣布推出全新 AI 模型系列—— Gemini 2.5。谷歌首席科学家 Jeff Dean 表示,Gemini 2.5 是该公司最智能的模型,具有令人印象深刻的高级推理和编码能力。
Gemini 2.5 系列属于 " 思考模型 ",这意味着该模型在生成最终回应之前,能够进行内部的 " 思考 " 或推理过程。谷歌表示,这种能力旨在显著提升模型的性能表现和答案的准确性,是谷歌在强化学习、思维链提示技术领域长期深耕,以及对早期 " 思考 " 模型(如 Gemini 2.0 Flash Thinking )持续探索的重要成果。
Gemini 2.5 Pro 是这一系列模型的首发产品。谷歌表示,Gemini 2.5 Pro 支持 100 万个 token 的上下文窗口,这意味着它一次性能处理相当于两本《红楼梦》字数的文本量。并且,谷歌承诺,Gemini 2.5 Pro 很快将支持两倍的上下文窗口(即 200 万个 token)。
目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 应用中推出,向 Gemini Advanced 用户开放,并将很快在 Vertex AI 上推出。
一经发布,Gemini 2.5 Pro 便以出色的性能吸引了外界的广泛关注。谷歌在博客中强调,Gemini 2.5 Pro 在一系列行业基准测试中达到了 " 最先进水平 "(state-of-the-art),包括常见的编程、数学和科学基准测试。
在 " 人类的最后考试 " 测试中,它获得了 18.8% 的最高分数,这是目前为止所有未使用(外接工具)的大模型中最好的成绩。" 人类最后的考试 " 是一个由全球近千名专家共同设计的多模态基准测试,旨在评估大型语言模型的能力极限。该测试包含 3000 道涵盖数学、人文学科和自然科学等多个领域的前沿问题。
" 人类的最后考试 " 测试 图片来源:谷歌官网
在专注于人类理解的大模型竞技场测试中,Gemini 2.5 Pro 也以创纪录的优势拔得头筹,创下了历史最大的分数跨越,比 Grok-3 和 GPT-4.5 高出 40 多分。
图片来源:大模型竞技场
具体来看,在代号为 "nebula" 的测试中,Gemini 2.5 Pro 横扫所有类别,夺得第一,独揽数学、创意写作、指令遵循、长查询和多轮对话这五大领域的冠军;
图片来源:X 平台截图
在人类偏好测试中,Gemini 2.5 Pro 同样是在所有类别中问鼎榜首,只在困难提示和编码领域与 Grok-3/GPT-4.5 拿到并列冠军。
人类偏好测试 图片来源:大模型竞技场
在网页开发领域,Gemini 2.5 Pro 也是脱颖而出,在 WebDev Arena 上排名第二,它较上一代 Gemini 有了巨大的飞跃,超越了 Claude 3.5 Sonnet,是第一款能与 Claude 抗衡的模型,但仍低于 Claude 3.7 Sonnet。
WebDev Arena 测试 图片来源:大模型竞技场
在 Vision Arena(视觉竞技场)测试中,作为多模态模型的 Gemini 2.5 Pro 也处于领先的位置。
Vision Arena 测试 图片来源:大模型竞技场
记者实测:编程方面实力强大,但审美及玩家体验待提升
每经记者第一时间对 Gemini 2.5 Pro 进行了测试,测试包括数学、火星登陆模拟测试、网页开发和小游戏制作。
数学问题
每经记者抛出的是一个博士资格考试的群论数学问题:有多少个 147 阶的非同构群?
Gemini 2.5 Pro 在数量和具体的非同构群上都给出了完美的解答。值得一提的是,此前记者也用这一问题对其他大模型进行了测试,Grok3、o3-mini 和 DeepSeek-R1 都或多或少出现了错误,不是数量没找对,就是具体的非同构群出错。
火星登陆模拟
接下来,每经记者测试的是 Gemini 2.5 Pro 在数学和物理方面的综合能力。测试选择的是马斯克的经典问题:绘制一个登陆火星并返回的火箭轨道图。
Gemini 2.5 Pro 给出了一个完成度超高的动态图像,包含任务天数、具体轨道示意图等要素。并且,它还称,这只是一个简单版本,如果允许它接入天体数据库的话,它还可以制作一个更准确的版本出来。
网页开发
在前端设计方面,每经记者要求它设计一个有互动性的世界风光介绍网站。
Gemini 2.5 Pro 输出了一个完整的网站,并且带有景点介绍和互动地图探索相关功能。但是,在具体细节上,它犯了很多小错误,例如,景点介绍的图片不仅单一,而且还都是不相关的内容。此外,整体网页设计的色调也不甚美观。
小游戏制作
最后,每经记者让 Gemini 2.5 Pro 制作一个类似于 flappy bird 的小游戏,标准是卡通画风,背景要随游玩时间变换,玩家主角要是一个小飞象,要有有趣的玩法创新。
在短暂的思考后,Gemini 2.5 Pro 输出了完成这个游戏需要的 500 多行代码。这一游戏非常完美地契合了每经记者给出的描述,并且对玩法创新的模糊描述也给出了良好的回应,自行思考出了无敌道具玩法,吃下金花生就可以在短时间内无敌。
更重要的是,这一游戏并没有出现任何 bug,只需要复制粘贴就可以流畅运行。
在此前的大模型测试中,第一次的输出结果或多或少会出现一些 bug,影响游戏体验。不过,还是要指出的一点是,Gemini 2.5 Pro 只考虑了背景变化的要求,却没注意到其生成的游戏背景图案中,云朵变化速度过快,太费眼睛。
综上,每经记者认为,Gemini 2.5 Pro 在科学类问题和编程等硬实力上实力满满,但在审美和玩家体验等软实力上还有一点欠缺。
每日经济新闻
登录后才可以发布评论哦
打开小程序可以发布评论哦