量子位 19小时前
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

发布还不到一天,马斯克的 Grok4 就已经被网友们玩疯了。

比如有网友报告,Grok-4 已经成功通过了著名的六边形小球氛围编程测试。

只见随着六边形的不断旋转,小球错落有致地从开口下落。

拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙,但作者表示这是故意为之。

当然除了小球之外,还有更让人为之震撼的动画。

画面中有很多小人,看似在随机跑动,但它们先后组成了 "Hello World""I am grok" 的文字,还有笑脸符号。

而且作者表示,Grok4 Heavy 直接一发入魂,其他模型都无法与之匹敌。

此外还有大佬也出来给 Grok4 打 call,比如 Epic 创始人 Tim Sweeney,表示在他看来 Grok4 就是 AGI。

Tim 把一篇论文喂给了 Grok4,结果发现 Grok4 对它从未见过的问题给出了深刻见解。

马斯克也转发 Tim 的帖子并附议,自己也有这种感觉。

除了这些,网友们还有哪些玩法呢,接下来就一睹为快!

Grok4" 全面体检 "

一位叫 Alex 的提示词工程师,用 8 个问题给 Grok-4 做了一波 " 全面体检 ",还拿 OpenAI 的 o3 进行了对比。

第一个任务也是小球测试,不过比开头的例子要简单得多,六边形只有一层,小球也只有一个。

测试的目的,是考察模型对物理规律的理解。

白底的是 Grok4 作品,黑底的则出自 o3 之手,两边一对比高下立判。

再来是多层推理,这里 Alex 设计了一个专业的法律问题。

如果 A 公司收购 B 公司,而 B 公司持有 C 公司的债务,那么如果 C 公司违约,会发生什么?解释所有法律和财务后果。

Grok4 用表格的形式整理了 ABC 三方和其他方面可能受到的影响,并最后给出总结。

而从最末尾的内容来看,o3 的这部分回答似乎和法律关系不大。

编程方面,Alex 测试了两个模型的代码翻译能力,要求它们将用于解决迷宫问题的 Python 递归函数转换为 Go 语言,并逐行提供西班牙语注释。

结果 Grok4 搜集到了代码并完成了任务,o3 这边则是用西班牙语回复,让 Alex 自己提供一段代码这样它才能改。

再来是让模型的 " 专家转变 ",Alex 要求模型分别向机器学习博士生和 10 岁的小朋友解释 Transformer 的工作原理。

其余的几个题目主要和安全相关,Alex 测试了多种注入攻击方式,这里就不一一展示了。

最终,Grok4 通过了全部的 8 个任务,而 o3 只通过了两个。

Grok4:最喜欢欧拉恒等式

一名叫 Dan 的 X 员工,在聊天中询问 Grok4 最喜欢的公式是什么。

Grok4 的回答是 "e^i π + 1 = 0",也就是著名的欧拉恒等式(欧拉公式的一种特殊情况)。

Dan 表示,自己上学时学了 5 个学期的高数并且成就都是 A,但依然未对欧拉恒等式有过直观了解。

结果看到 Grok4 制作的可视化网页之后,Dan 终于对学了两年半数学也没搞透彻的欧拉恒等式醍醐灌顶。

Dan 制作这个网页只用了四轮对话,并且第一轮只是询问 Grok4 最喜欢的公式是什么,最后一轮是调整为暗色模式,相当于只用两轮就能完成核心功能的制作。

挑战 SVG 绘图

除了把数学公式可视化,Grok4 还挑战了 SVG 绘图,SVG 是一种用 XML 形式表示的矢量图形。

因此不同于一般的 AI 生图,SVG 绘图的本质其实是在写代码(虽然人类可用图形界面绘制),但话说回来,模型依然需要对要画的内容有所把握。

这项挑战被发在了 Reddit,一同参与的还有 o3、Gemini 2.5 Pro 和 Claude 4 Sonnet,帖主认为这是测试大模型视觉和空间推理能力的好方法。

第一题是美国地图,直观看下来最接近的是 Gemini,不过 Grok4 至少也没出现 o3 和 Claude 那种区块重叠的严重失误。

第二题是用 SVG 对漫画进行重绘,总之是四个模型各有各的错法。

下一题不再是对已有事物进行重构,而是让模型自行设计专辑封面。

这一轮除了 Claude 和 Gemini 比较抽象,Grok4 的设计相对简单,但是可以算没 " 出错 "。

此外,SVG 绘图其实是一项综合测试,对模型的知识储备同样有要求。

下面这道题中,模型被要求绘制三羧酸循环(又名柠檬酸循环、克雷布斯循环)的图示,正确答案长这样:

选手们的作品则是这样:

从评论来看,o3 的图示是最准确的。

最后一题则是纯靠想象,参赛选手们被要求给自己画个自画像。

总得来看,不管是哪个模型,在这场以画图为形式的综合测试中,表现都还有很大提升空间。

高阶玩法:模拟专家协作环境

除了网友们各显神通,HyperWrite 的 CEO Matt Shumer 还展示了高阶玩法。

Matt 展示了一个名为 "Expert Conductor"(专家调度器)的提示工程方法。

这个方法的核心是模拟一个专家协作的环境,让模型假想自己正在协调不同领域的 " 专家 " 进行实时合作,共同解决问题。

为了更好地骗过 Grok4,Matt 像模像样地提出了选择专家的要求,以及专家要干什么。

并且还进行了举例说明:

提示词的最后还有专家标签,以及再次强调的核心原则,之后就可以接上真正的任务目标了。

最终 Grok4 用 52 秒的时间完成了任务,Matt 表示 Grok4 的表现好到令人难以置信(黑块是 Matt 自己打的)。

当然,Grok4 的玩法肯定还有很多,比如有网友期待,什么时候开始挑战宝可梦。

你还有哪些新鲜的玩法呢,欢迎评论区交流。

参考链接:

[ 1 ] https://x.com/flavioAd/status/1943192967453511699

[ 2 ] https://x.com/mckaywrigley/status/1943385794414334032

[ 3 ] https://x.com/elonmusk/status/1943411225553240206

[ 4 ] https://x.com/alex_prompter/status/1943231978779877514

[ 5 ] https://x.com/KettlebellDan/status/1943342507468951668

[ 6 ] https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/

[ 7 ] https://x.com/mattshumer_/status/1943433960798740777

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题   扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

进群后,你将直接获得:

  最新最专业的 AI 产品信息及分析  

   不定期发放的热门产品内测码

   内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

编程 创始人 体检 马斯克
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论