全天候科技 12小时前
“表现及其惊艳”,谷歌大模型罕见发布前“造势”,Gemini 3.0本周登场?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谷歌即将发布的 Gemini 3.0 人工智能模型正引发行业广泛关注。

预测市场显示该模型将于下周推出,首席执行官 Sundar Pichai 在社交媒体上以 " 思考表情 " 回应相关猜测,几乎确认了这一时间表,这是谷歌首次在大模型发布前进行如此大规模的内外部造势活动。

而且接触过该模型的人士对其能力评价极高,据 Business Insider 周一报道,内部人士形容新模型 " 极其惊艳 ",预计将在编码和多媒体内容生成方面实现重大改进。谷歌员工已开始在社交媒体上流露对发布的兴奋之情,这种现象在谷歌以往的模型发布前并不多见。

该模型在专业领域的测试结果显示出突破性进展。加拿大劳瑞尔大学历史学教授 Mark Humphries 通过 Google AI Studio 测试了疑似 Gemini 3.0 的未发布模型,发现其在识别 18 世纪手写文稿方面接近完美,字符错误率仅为 0.56%,词错误率为 1.22%,相比前代 Gemini 2.5 Pro 提升 50%-70%,达到专家级人类水平。

对于自 2022 年底 ChatGPT 发布后一度陷入 " 红色警报 " 的谷歌而言,Gemini 3.0 被视为重塑市场地位的关键一步,尤其是在 OpenAI 备受期待的 ChatGPT-5 发布后未能立即产生重大影响的背景下。

罕见的发布前热度

谷歌此次大模型发布前的氛围与以往明显不同。预测市场已开始押注 Gemini 3.0 将于下周发布,Pichai 在社交平台 X 上用一个 " 思考表情 " 回应相关讨论,这一微妙举动被广泛解读为对发布时间的确认。

谷歌员工在社交媒体上的活跃表现也不同寻常。众多员工公开表达对新模型发布的兴奋情绪,这种集体性的预热行为在谷歌以往的模型发布中并不常见。不仅内部人员,许多提前了解模型能力的外部人士也在网上发表热情洋溢的评价。

据 Business Insider 报道,内部人士将该模型描述为 " 极其惊艳 ",预计将在编码和多媒体内容生成领域带来显著提升,可能包括对谷歌热门图像工具 NanoBanana 的重大升级。

专业测试显示突破性能力

Mark Humphries 的测试为理解新模型的能力提供了具体案例。他使用自己的专业工作——分析 18 世纪手写会计账簿——作为基准测试。这项任务难度极高,不仅需要识别潦草字迹,还需要整合历史背景、语言细微差别和逻辑推理。

Humphries 指出,解读历史手写文本需要超越视觉识别的能力。" 当你回到过去,就进入了一个不同的国度。人们说话方式不同,使用不熟悉的词汇或以不熟悉的方式使用熟悉的词汇。过去的人们使用不同的测量和会计系统、不同的措辞、标点、大写和拼写。"

测试结果显示,前代 Gemini 2.5 Pro 在这些复杂文档上的字符错误率约为 4%,大致相当于专业人类转录员的水平。新模型将字符错误率降至 0.56%,词错误率降至 1.22%,达到专家级人类表现标准。

更值得注意的是模型展现出的推理能力。Humphries 发现模型能够自发进行逐步符号推理,例如在 18 世纪商人账本中将 "145" 推断为 "14 磅 5 盎司 ",这不仅是文本识别,而是对生成这些记录的经济和文化系统的理解。

谷歌 AI 战略的转折点

对于谷歌而言,Gemini 3.0 的发布具有战略意义。自 2022 年底 ChatGPT 发布以来,谷歌一度被认为在 AI 竞赛中处于追赶状态,甚至内部发布了 " 红色警报 "。Business Insider 援引内部人士称,新模型可能让谷歌有机会夺得领先地位,特别是在 OpenAI 的 ChatGPT-5 未能立即产生重大影响之后。

该模型预计在编码和多媒体内容生成方面实现重大改进。谷歌的图像生成模型 NanoBanana 近期已获得用户好评,该名称源于一位名为 Nina 的员工创建的占位符名称。据谷歌 Gemini App 产品经理 David Sharon 在 Made By Google 播客中透露,谷歌将模型匿名提交到开放 AI 评估平台 LM Arena 进行公平测试时使用了这个名称,结果在网络社区意外走红,谷歌因此正式采用了这一名称。

最深远的意义在于,如果新模型的能力得到系统验证,AI 可能正从复杂的 " 随机鹦鹉 " 过渡为具有真正理解能力的系统。Humphries 指出:" 如果这种行为被证明是可靠和可复制的,它指向了一些深刻的东西:真正的推理可能不需要明确的规则或符号框架才能出现,而是可以从规模、多模态和接触足够的结构化复杂性中涌现。"

对历史学家而言,接近完美的手写文本识别结合情境理解能力,将允许快速数字化和分析数百年来被困的知识,可能改写对过去的理解。而对更广泛的应用场景,能够推理的 AI 可以开始自动化此前被认为是人类专家专属领域的复杂认知任务。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 人工智能 首席执行官 社交平台 大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论