智东西 前天
谷歌推最强Gemini推理模型:月费1800,已拿奥赛金牌,性能超OpenAI o3和Grok 4
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | ZeR0

编辑 | 漠影

智东西 8 月 2 日报道,昨夜,谷歌推出其迄今最强推理模型 Gemini 2.5 Deep Think。

这是最近在今年国际数学奥林匹克(IMO)上 " 拿金牌 " 的模型的变体。近期高级版 Gemini Deep Think 完美解答了 IMO 6 道题目中的 5 道,总分 35 分(满分 42 分),达到金牌水平。

该模型需要几个小时才能推理出复杂的数学问题。新发布的版本在日常使用中速度更快、更易用,根据内部评估,在 2025 年 IMO 基准测试中仍达到铜牌水平。

谷歌在今年 5 月的 I/O 开发者大会上首次预览了 Gemini 2.5 Deep Think。新版本进行了 " 重大改进 "。在具有挑战性的编程、科学、知识、推理基准测试中,与 OpenAI o3、Grok 4 等其他不使用工具的模型相比,Gemini 2.5 Deep Think 在 LiveCodeBench V6 和 Humanity ’ s Last Exam 均取得最佳性能。

Gemini app 中的 Deep Think 模型,使用思考技巧来提供更详细、更有创意和更周到的回答,甚至可以帮助数学家来测试数学猜想,还能提高 Web 开发任务的美观性。

Deep Think 支持文本、图像、音频、视频等输入和 1M tokens 上下文窗口,输出长度为 192K tokens。

其工作原理是利用谷歌的并行思维技术,能同时生成多个想法,并同时进行思考,甚至随着时间的推移不断修改或整合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或 " 思考时间 ",谷歌给了 Gemini 更多的时间来探索不同的假设,并为复杂问题找到创造性的解决方案。

谷歌还开发了新颖的强化学习技术,鼓励模型利用这些扩展的推理路径,从而使 Deep Think 随时间推移成为更好、更直观的问题解决者。

Deep Think 可以帮助人们解决需要创造力、战略规划和逐步改进的问题,例如:

迭代开发和设计:在需要逐块构建复杂事物的任务上的表现出色,比如可以提高网络开发任务的美学和功能。

科学和数学发现:可推理出高度复杂的问题,通过复杂的科学文献帮助制定和探索数学猜想或推理,可能加速发现之路。

算法开发和代码:在棘手的编码问题上特别出色,其中问题制定和仔细考虑权衡和时间复杂性是最重要的。

目前仅有最高级别的 Google AI Ultra 订阅者可选用 "Deep Think",每月订阅费为 249.99 美元(约合人民币 1803 元)。

Deep Think 自动与代码执行和谷歌搜索等工具配合使用,并能产生更长的响应。

同时,达到 IMO 金牌水平的 Deep Think 模型将进一步测试,并向一小部分数学家和学者分享,用于辅助研究。谷歌计划利用这些反馈来完善该模型的未来版本。

谷歌还正在努力在未来几周内通过 Gemini API 向一组受信任的测试人员发布带和不带工具的 Deep Think,以更好地了解其对开发者和企业用例的可用性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 文献 数学 编程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论