编辑 | 杨文
今天凌晨,大洋彼岸可真够热闹的。
OpenAI 推出了 GPT-4o 动嘴生图、P 图的功能,而谷歌则直接祭出了号称「最智能的模型」Gemini 2.5。
据谷歌首席科学家 Jeff Dean 介绍,首个版本 Gemini 2.5 Pro Experimental 已集成「思考能力」,是迄今为止性能最强大的 Gemini 模型,尤其擅长高级推理和编码,并在 @lmarena_ai 排行榜上拿下第一。
到底有多智能?
先来欣赏几个官方给出的 demo。
Prompt:p5js to explore a Mandelbrot set。
提示词:用 p5.js 探索曼德博集合。
Prompt:Create an animated bubble chart using Plotly Express of how economic and health indicators have evolved over the years for each continent.
提示词:使用 Plotly Express 创建动画气泡图,展示各大洲经济和健康指标随时间变化。
Prompt:Make me a captivating endless runner gameKey instructions on the screen. p5js scene ,no HTML. l like pixelated dinosaurs and interesting backgrounds.
提示词:用 p5.js 创作一个迷人的无尽跑酷游戏,画面上有关键操作提示。场景像素风,主角是恐龙,背景要有趣。
Prompt:Create a beautiful, interactive p5js demo ( no HTML ) .l like fish and nebulaeShow me what the fish are thinking.
提示词:用 p5.js 做个好看的互动演示,别用 HTML。我喜欢鱼和星云,能不能展现出鱼的想法。
Prompt: p5.js ( no HTML ) swarm of 30 colorful boids swimming inside a rotating hexagon.like supernova nebulae.
提示词:用 p5.js 做一个无 HTML 的演示:30 只彩色的 "boids" 在一个旋转的六边形内游动,效果像超新星星云。
效果甚是惊艳。
而且谷歌一出手就是免费!
现在普通用户可以在 AI Studio 中免费使用 Gemini 2.5 Pro,Gemini App 中的 Gemini 高级用户也能使用它。
链接直达:http://aistudio.google.com/app/prompts/
一手实测
现在只要发布新模型,言必称自家的最智能、最强大,然后佐以各种跑分结果。
对于普通用户来说,分数、排名都不重要,真正重要的是,它在实际生活中到底好不好使。
既然谷歌称 Gemini 2.5 是目前地表最强,那我们就来场大乱斗,将它和 o3-mini、GPT-4.5、Claude3.7 Sonnet、Grok3、DeepSeek R1 拉出来同台竞技。
1. 一根 10 米长的竹竿能通过高 4.5 米、宽 3.8 米的城门吗?
如果按照常规的数学逻辑来思考,10 米长的竹竿确实无法通过这个尺寸的城门,但是在现实生活中,我们可以让竹竿与地面平行穿过城门。
万万没想到,这么一道简单的竹竿过城门,让这群曾号称最强的大模型全军覆没。
它们不约而同地想到了勾股定理,也把数值算对了,却忽略了现实是个三维空间。
来看看各家大模型的具体表现。
Gemini 2.5:
o3-mini:
GPT-4.5:
Claude 3.7 Sonnet:
Grok3:
DeepSeek R1:
2. 我有 6 个鸡蛋,碎了 2 个,煎了 2 个,吃了 2 个,最多还剩几个?
这道题目的关键在于理解这些动作之间的关系。
如果把每个动作视为独立事件,那将一个鸡蛋也不剩。
但题目问的是最多还剩几个,这表明可能有重叠的情况,碎的 2 个鸡蛋正好煎了、吃了,因此在最佳情况下,最多还剩 4 个鸡蛋。
Gemini 2.5 和 DeepSeek R1 思考一番后,抓住了问题关键,最终回答正确。
o3-mini、GPT-4.5 和 Claude3.7 考虑到了动作重叠的情况,但没有扣住「最多」这个条件,因此回答错误。
最搞笑的就是马斯克家的 Grok3,答案对了,但脑回路清奇,它是从完整的鸡蛋里拿出 2 个煎了、吃了,所以最后还剩 2 个完整的鸡蛋和 2 个碎鸡蛋。
Claude3.7 Sonnet:
3. 两个人同时来到了河边,都想过河,但只有一条小船,而且小船只能载一个人。请问:他们能否都过河?
这道题目很容易让人陷入思维定势。
同时来到河边的俩人不一定在河的同一边,只要抓住这个关键点,这道题目就迎刃而解了。
Gemini 2.5、Claude3.7 Sonnet 思路清晰,回答正确。
o3-mini 和 GPT-4.5 虽然都说可以同时过河,但给出的解释非常牵强,GPT-4.5 甚至说让船空着漂回去,所以不算对。
Grok3 和 DeepSeek R1 则回答错误。
各家大模型具体表现如下。
4. 张三去水果店买苹果,苹果进价为 20 元,卖价是 30 元。张三付给老板 100 元,老板没有零钱,就在卖鞋的人那里换了 100 元零钱,找给张三 70 元。后来卖鞋的人发现那 100 元是假币,于是找老板换回了 100 元。请问水果店老板损失了多少钱?
别看这道题目出现了如此多的数字,故事情节也曲折,但其实水果店老板损失的钱只有两部分 —— 苹果进价 20 元和找给买家的 70 元,因此答案时 90 元。
Gemini 2.5、Claude3.7 Sonnet、Grok3 和 DeepSeek R1 都回答正确。
o3-mini 和 GPT-4.5 纠结了半天,彻底被绕进去了,最终得出错误答案。
5. 多模态测试题,杯子有多高?
对于这道题,大模型们要先识别图像,然后进行计算。
Gemini 2.5、Claude3.7 Sonnet 和 Grok3 回答正确。
而 o3-mini、GPT4.5 全程胡说八道。
DeepSeek R1 虽然可以上传图片,但它只能识别图片中的文字,无法真正读懂图,因此回答错误。
各家大模型的具体表现如下。
根据以上测试,我们发现 Gemini 2.5 虽然也会翻车,但正确率达 80%,总体来说数学逻辑推理能力还是挺能打的。
Claude 3.7 Sonnet 稍逊一筹,5 道题目错了俩。
最惨的就是 OpenAI 家的两大模型 o3mini 和 GPT-4.5,没有一道题目是做对的,正确率为 0。
以后我们会带来更多好玩有用的 AI 评测,也欢迎大家进群交流。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
登录后才可以发布评论哦
打开小程序可以发布评论哦