智东西
编译 | 王涵
编辑 | 漠影
谷歌史上最强编程模型来了!
智东西 5 月 7 日消息,北京时间 5 月 6 日晚,谷歌 DeepMind AI 研究部门正式推出 Gemini 2.5 Pro "I/O" 特别版,回应开发者社区对实际编程和界面设计效能的强烈需求,给全球用户提前 " 尝鲜 "。
WebDev Arena Leaderboard 基准测试最新榜单显示,自 2022 年底 ChatGPT 引爆生成式 AI 竞赛以来,谷歌首次在关键编程基准测试中超越 Claude,实现全面领先。新版模型代号 "
Gemini-2.5-pro-preview-05-06" 已取代 03-25 版本,目前可通过 Gemini API、Vertex AI、AI Studio 平台获取,普通用户可以通过 Gemini 聊天机器人应用体验。
数据来源于 Imarena.AI
新模型定价与 Gemini 2.5 Pro 模型相同,每百万 token 输入和输出费用分别为 1.25 美元和 10 美元(约合人民币 9 元和 72 元)(支持 20 万 token 上下文),相较 Anthropic 的 Claude 3.7 Sonnet 模型的 3 美元和 15 美元(约合人民币 22 元和 108 元)更具性价比。
谷歌 DeepMind 首席执行官戴密斯 · 哈萨比斯(Demis Hassabis)在海外社交媒体 X 平台盛赞其为 " 我们迄今构建的最强编程模型 "。
一、编程能力首次超越 Claude,AI 编程 " 头把交椅 " 或将易主
这次的特别款是三月发布的大热模型 Gemini 2.5 Pro 的升级新版本,谷歌 Gemini API 高级产品经理 Logan Kilpatrick 在技术博客中确认,本次升级重点优化了函数调用功能,降低错误率并提升触发可靠性。据谷歌博客内容,Gemini 2.5 Pro"I/O" 特别版在编程和构建交互式网页应用方面的能力有 " 显著 " 提升,在代码转换(即修改代码以实现特定目标)等任务上的表现也更好。
数据来源于 WebDev Arena Leaderboard
博客文章中提到了 Gemini 2.5 Pro"I/O" 特别版在 WebDev Arena Leaderboard 基准测试(衡量模型创建美观且功能完备的网页应用的能力)中的表现。在最新排名中,Gemini 2.5 Pro Preview ( 05-06 ) 以 1419.95 分超越 Claude 3.7 Sonnet(1357.10 分)登顶,相较前代 03-25 版本 1272.96 分的表现,新版实现了 146.99 分的提升。
谷歌 DeepMind 首席执行官哈萨比斯对此十分自豪,还狠狠 " 凡尔赛 " 了一番:
此外,本次升级最突出的能力在于根据单条文本提示生成完整交互式网页应用或模拟程序。Gemini 应用内的演示显示,用户可将视觉图案或主题提示直接转化为可用代码,大幅降低设计导向型开发者的入门门槛。
二、视频理解超强,领跑视觉基准测试
Gemini 2.5 Pro"I/O" 特别版在视频理解方面也具备超高性能,谷歌在其博客中称该版本在 VideoMME 基准测试中获得 84.8% 的分数,占据榜首。据谷歌官方博客透露,该模型还驱动着 Gemini 移动应用的 Canvas 画布等核心功能。
数据来源于 Imarena.AI
在 Gemini 95 等应用中,新模型能自动统一视觉元素的风格匹配。其工作流支持将 YouTube 视频转化为功能完备的学习应用,并可快速生成响应式视频播放器、动态听写界面等高度风格化组件,几乎无需手动编写 CSS 代码。
结语:谷歌 Gemini 模型向实用生产力工具转型
AI 编程工具企业 Cursor 的首席执行官 Michael Truell 透露,内部测试显示 Gemini 2.5 Pro"I/O" 特别版的工具调用失败率显著下降。目前 Cursor 已将 Gemini 2.5 Pro 集成至其 code agent 系统。
代码托管平台公司 Replit 的总裁 Michele Catasta 也评价称该模型是 " 平衡性能与延迟的最先进模型 "。
虽然谷歌未公开 Gemini 2.5 Pro 的架构细节,但其核心目标始终是提供更快速、更直观的开发体验。通过强化代码生成和多模态输入优势,Gemini 2.5 Pro 正从研究性创新转向解决实际编程挑战的生产力工具。此次提前发布让谷歌 DeepMind 在重大会议前满足开发者需求、保持市场势头的意图更加明确。
登录后才可以发布评论哦
打开小程序可以发布评论哦