作者 | 陈骏达
编辑 | 心缘
智东西 3 月 26 日报道,今天,谷歌发布了 Gemini 2.5 思考模型家族的第一个成员——Gemini 2.5 Pro 实验版本。这一模型在多项基准测试中全面超越 OpenAI o3-mini,Claude 3.7 Sonnet、Grok-3 和 DeepSeek-R1,一经亮相便在大模型竞技场获得1443 分,凭借 39 分的大幅优势,获得断层第一。
不过,谷歌并未放出 Gemini 2.5 Pro 与 OpenAI o1、OpenAI o1-Pro 和 OpenAI o3 等模型在基准测试中的对比。此外,在智能体编程评估基准 SWE-bench verified 上,其得分要低于 Claude 3.7 Sonnet。
Gemini 2.5 Pro 除了在衡量人类偏好的大模型竞技场领先之外,还在常见的编程、数学和科学基准测试中处于领先地位,包括 Humanity ’ s Last Exam(人类最后考试)这一难度超高的基准测试,与 OpenAI o3-mini 相比,其得分提升了近 5%,提升比例达 34%。这款模型现已支持 100 万 tokens 上下文窗口,并将很快拓展至 200 万 tokens。
目前,Gemini 2.5 Pro 已上线面向开发者的谷歌 AI Studio 平台,并很快会在谷歌的在线 AI 开发平台 Vertex AI 上线。普通用户若要体验这款新模型,需要具备 Gemini Advanced 订阅账号。
未来几周,谷歌还将推出模型的定价,允许用户使用具有更高速率的 2.5 Pro 进行大规模商用。
博客地址:https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
体验链接:https://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro-exp-03-25
一、谷歌大秀新模型编程能力,一句话生成互动式图表
Gemini 2.5 Pro 发布后,谷歌 DeepMind 在其 YouTube 账号上发布了多个演示视频,主要展现了其编程能力与其他领域能力的结合。
例如,Gemini 2.5 Pro 可以根据用户提出的简单指令,在 p5.js 中探索曼德博集合。这要求大模型具备较好的数学、编程和可视化能力。最终,较好的可视化效果应包括清晰的边缘、平滑的颜色过渡等。
Gemini 2.5 Pro 还能根据提示词,创建互动式的图表。下方案例中,它便将过去几十年的人均 GDP 数据与健康数据结合,在一张图表内呈现了数百个国家过去几十年的变化,从而揭示财富与健康之间的关系。
对于一些更为日常的任务,如游戏开发,Gemini 2.5 Pro 也能在指定特定编程语言的情况下,给出兼具审美和可玩性的游戏。下方的这一恐龙小游戏与 Chrome 内自带的游戏画风颇为接近。
二、获得多项 SOTA 成绩,将支持 200 万 tokens 长上下文
谷歌称,Gemini 2.5 Pro 在一系列需要高级推理能力的基准测试中获得了最佳表现,包括 GPQA 和 AIME 2025。参与测试时,Gemini 2.5 Pro 没有使用多数投票等 token 消耗量巨大的测试时计算技巧。
Gemini 2.5 Pro 在 Humanity ’ s Last Exam 中获得了 18.8% 的最佳得分,且并未调用工具。这一测试集由数百位人类专家设计,包含了人类最前沿深奥的知识和推理。
高级编程能力方面,Gemini 2.5 Pro 在 2.0 版本的基础上实现了较大提升,新模型擅长创建美观的 Web 应用和智能体编程方面表现突出,同时擅长代码转换与编辑任务。
在行业标准的智能体编程评估基准 SWE-bench verified 上,Gemini 2.5 Pro 采用定制智能体配置取得了 63.8% 的得分,不过这一得分仍然低于 Claude 3.7 Sonnet。
与 Gemini 模型家族的其他成员一样,Gemini 2.5 Pro 具备原生多模态处理能力和超长上下文窗口。目前,其支持 100 万 tokens 的上下文窗口,并很快将升级至 200 万 tokens,让该模型能够解析海量数据集,处理来自文本、音频、图像、视频乃至完整代码库等多元信息源的复杂问题。
结语:编程成为 AI 玩家角力新前线
本次 Gemini 2.5 Pro 的发布,与昨日 DeepSeek-V3 新版本的发布相隔不到 30 个小时。与 DeepSeek-V3 一样,谷歌也选择提升了 Gemini 在编程、审美、数学等方面的能力,并将其作为模型的亮点重点展示,放出的 6 个演示视频均为 AI 编程相关。
AI 编程能力的提升,既能给普通用户带来直观的感知变化,也有望在生产场景中带来明显的效益提升。这一领域或将在未来很长一段时间内,成为大模型厂商们竞相角力的方向。
登录后才可以发布评论哦
打开小程序可以发布评论哦