钛媒体 6小时前
Gemini 3.0发布:从“工具辅助”到“主动代理”,谷歌做了这几点
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当地时间周二,Alphabet 旗下的谷歌宣布发布其最新的人工智能 ( AI ) 模型 Gemini 3。这款被业内称为 " 全能型选手 " 的模型,以百万级上下文窗口、断层领先的多模态理解、颠覆式的 Agent 开发平台和全栈技术生态支撑,不仅实现了对前代产品的代际级超越,更在多个核心基准测试中对标甚至超越 GPT-5.1、Claude 4.5 等竞品,标志着 AI 从 " 工具辅助 " 向 " 主动代理 " 的跨越式演进。

据悉,Gemini 3 将被整合进 Gemini 应用、谷歌的 AI 搜索产品 AI Mode 和 AI Overviews,以及其企业级产品。该模型将自周二起向部分订阅用户开放,并将在未来几周更大范围上线。

在 2025 年 11 月的财报电话会议上,谷歌 CEO 桑达尔・皮查伊就已确认 Gemini 3 的发布计划,他当时强调:" 前沿模型的进一步发展需要更多时间,我们既要追求迭代速度,更要确保显著的能力突破 "。这种 " 慢工出细活 " 的策略,在 Gemini 3 的产品形态中得到充分体现——它不是对 2.5 Pro 的简单微调,而是从架构、能力到生态的全面重构。

推理是 AI 解决复杂问题的核心,Gemini 3 在这一领域实现了双重突破:基础性能的全面提升与推理模式的产品化创新。在基础推理能力上,Gemini 3 Pro 在多个权威基准测试中创下新高:GPQA Diamond(研究生级推理)测试准确率达 91.9%,Humanity ’ s Last Exam(多步逻辑推理)无工具状态下得分 37.5%,SimpleQA Verified(事实准确性)以 72.1% 的分数领跑业界。

这些数据意味着模型在科学研究、专业咨询等需要深度思考的场景中,可靠性达到了新高度。例如它能独立完成托卡马克装置等离子体流动的可视化代码编写,并同步创作诠释聚变物理学精髓的诗歌,实现理性与感性的结合。

在多模态推理方面,Gemini 3 同样表现出色,在 MMMU-Pro 测试中获得 81% 的分数,在 Video-MMMU 测试中达到 87.6%。这意味着该模型能够高度可靠地处理科学和数学等广泛领域的复杂问题。

除标准版本外,谷歌还推出了 Gemini 3 Deep Think 增强推理模式,通过 " 思维签名 " 和 " 思考等级 " 两大创新,将思维链(Chain of Thought)技术产品化:思维签名会在 API 返回中包含加密的推理过程,确保长链路任务中逻辑不跑偏;思考等级则允许开发者根据任务复杂度配置模型 " 思考时间 ",实现速度与精度的平衡。

数据显示,增强推理模式在 Humanity's Last Exam 测试中达到 41.0% 的成绩,在 GPQA Diamond 测试中获得 93.8% 的分数。在 ARC-AGI-2 测试中,Deep Think 模式创下了 45.1% 的前所未有成绩,展示了其解决新颖挑战的能力。谷歌表示,该模式正在接受额外的安全评估,将在未来几周内向 Google AI Ultra 订阅用户开放。

长上下文处理是 AI 从 " 短对话 " 迈向 " 复杂任务 " 的关键。Gemini 3.0 Pro 最令人震撼的特性,莫过于其支持高达 100 万 tokens 的超长上下文长度(约相当于 700 页英文书籍或 2 小时的 4K 视频),这一数字远远超过当前主流模型—— GPT-4 Turbo 的 128K tokens 和 Claude 3.5 的 200K tokens,较谷歌自身的 Gemini 2(12.8 万 token)提升 7 倍,且保持 90% 以上的信息保留率。 

而在多模态方面,Gemini 系列从诞生之初就以 " 原生多模态 " 为核心优势,Gemini 3 则将这一优势推向新高度,实现了从 " 处理多模态 " 到 " 理解多模态关联 " 的跨越。在权威基准测试中,Gemini 3 Pro 的多模态能力全面领跑:MMMU-Pro(多模态综合推理)得分 81%,Video-MMMU(视频理解)以 87.6% 的成绩重新定义行业标准,成为 " 世界上最先进的多模态理解模型 "。

如果说推理和多模态是 Gemini 3 的 " 大脑 ",那么编码与 Agent 能力就是它的 " 双手 "。谷歌通过 " 代理式编码(Agentic Coding)" 和 " 可视化编码(Vibe Coding)" 两大创新,彻底重塑了开发者与 AI 的协作模式。

在代码生成领域,Gemini 3 被谷歌称为 " 迄今构建的最佳 vibe coding 和智能体编码模型 "。该模型在 LiveCodeBench Pro(接近 ICPC/Codeforces 难度的竞技编程测试)中,模型以 2439 的 Elo 得分远超 GPT-5.1 的 2243 和 Claude 4.5 的 1418,逼近专业程序员水平。

Agent 能力的跃升是 Gemini 3 最具颠覆性的更新。模型不再是被动响应指令的工具,而是能自主规划、拆解任务、调用工具的 " 数字代理 "。在 Terminal-Bench 2.0 测试(终端操作能力)中,它以 54.2% 的得分展现出强大的工具使用能力;而在 Vending-Bench 2 测试(长程规划能力)中,Gemini 3 Pro 在模拟运营自动售货机业务的年度周期中,通过一致的决策和工具使用实现了更高回报,位居测试榜首。这种长程规划能力让 AI 能独立完成复杂工作流,例如自动爬取数据、分析趋势、生成报告并部署可视化界面,全程无需人工干预。

为了让 Agent 能力落地,谷歌同步推出了全新的开发平台 Google Antigravity,让开发者得以在更高抽象层级上进行任务导向型编程。谷歌实验室与 Gemini 副总裁 Josh Woodward 表示,Gemini 3 是谷歌有史以来最契合 " 氛围编程 " 的模型。氛围编程指一个快速兴起的 AI 工具市场,允许软件开发者通过提示词即可生成代码。

谷歌称,新模型将支持 " 生成式界面 ",以类似数字杂志的方式呈现某些答案。例如,新模型被要求结合梵高生平背景解读其作品,系统为每幅画作生成了图文并茂、色彩丰富的阐释。

在 Gemini 3.0 模型发布之前,网上就已有不少针对该模型的测试。测试结果显示,该模型在专业领域的测试结果显示出突破性进展。加拿大劳瑞尔大学历史学教授 Mark Humphries 通过 Google AI Studio 测试了疑似 Gemini 3.0 的未发布模型,发现其在识别 18 世纪手写文稿方面接近完美,字符错误率仅为 0.56%,词错误率为 1.22%,相比前代 Gemini 2.5 Pro 提升 50%-70%,达到专家级人类水平。

测试结果显示,前代 Gemini 2.5 Pro 在这些复杂文档上的字符错误率约为 4%,大致相当于专业人类转录员的水平。新模型将字符错误率降至 0.56%,词错误率降至 1.22%,达到专家级人类表现标准。 

更值得注意的是模型展现出的推理能力。Humphries 发现模型能够自发进行逐步符号推理,例如在 18 世纪商人账本中将 "145" 推断为 "14 磅 5 盎司 ",这不仅是文本识别,而是对生成这些记录的经济和文化系统的理解。

对于谷歌而言,Gemini 3.0 的发布具有战略意义。自 2022 年底 ChatGPT 发布以来,谷歌一度被认为在 AI 竞赛中处于追赶状态,甚至内部发布了 " 红色警报 "。Business Insider 援引内部人士称,新模型可能让谷歌有机会夺得领先地位,特别是在 OpenAI 的 ChatGPT-5 未能立即产生重大影响之后。

尽管谷歌在 AI 竞赛中起步较慢,但其仍拥有 OpenAI 等初创公司所没有的众多优势:自研专用芯片;在在线搜索中拥有约 90% 的市场份额;以及数以百万计的 Gmail、Google Docs 等用户,如今这些产品正逐步被注入 AI 功能。谷歌上月还公布了创纪录的收入,并计划在 AI 建设上投入数十亿美元。 

对于企业和开发者而言,Gemini 3 的价值不仅在于其强大的能力,更在于它提供了一个 " 可扩展、可定制、可落地 " 的智能基座。随着生态的完善,我们有理由相信,Gemini 3 将加速 AI 从 " 实验室 " 走向 " 生产线 ",最终渗透到每个人的生活与工作中。

对于行业而言,Gemini 3 的发布不是竞争的终点,而是新的起点。它将倒逼竞争对手加速技术创新,推动 AI 行业在推理能力、多模态融合、Agent 开发等领域的全面进步;对于用户和开发者而言,Gemini 3 带来的不仅是更强大的工具,更是全新的工作和交互方式。

(文|Leo 张 ToB 杂谈,作者|张申宇,编辑丨盖虹达)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 科学研究 达尔 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论