智东西 6小时前
低成本叫板GPT-5.1,马斯克杀入智能体
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西 11 月 20 日报道,今日,马斯克的 xAI 公司推出 xAI API 的两大更新:快速、低成本、以智能体为中心的新模型 Grok 4.1 Fast智能体工具 xAI Agent Tools API

Grok 4.1 Fast是其迄今为止性能最佳的工具调用模型,拥有支持200 万 token上下文的窗口,它能够准确快速地进行推理并完成智能体任务,尤其擅长处理客户支持和财务等复杂的实际应用场景

▲基于 Grok 4.1 Fast 搭建支持用户改预定的应用(图源:xAI)

该模型在人工智能分析智能指数(AII)中跃升 4 位,达到第六位,仅次于第五位的 Grok 4。其中,其在智能体调用测评 ²-Bench Telecom 排行榜上以 93.3% 的得分位居榜首,以更低成本超越了GPT-5.1(high)、Gemini 3 Pro等模型的性能表现,比 Grok 4 Fast 提高了 27 分。xAI 还提到,Grok 4.1 Fast 在事实性方面更准确,幻觉率比 Grok 4 Fast 降低了一半

▲ AII 指数情况(图源:Artificial Analysis)

Agent Tools API使智能体能够访问实时 X 数据、网络搜索、远程代码执行等功能。

Grok 4.1 Fast 和 Agent Tools API 结合使用,使开发人员能够构建专门用于工具调用和智能体搜索的生产级智能体。

智东西第一时间对 Grok 4.1 Fast 进行了体验,发现正如 xAI 所说,其在实时信息检索效果上要比 Grok 4 Fast 明显提升,但在经典编程案例表现上相比 Grok 4 Fast 出现了" 翻车 "。这或许是其在追求更高智能体工具调用能力和速度时,损失了特定维度的模型性能。

定价方面,Grok 4.1 Fast 输入价格为 0.2 美元 / 百万 tokens,缓存输入价格为 0.05 美元 / 百万 tokens;输出价格 0.5 美元 / 百万 tokens,Agent Tools API 调用价格 5 美元起 /1000 次成功调用。

在 12 月 3 日之前,用户两周内可以免费体验以上服务。

▲ Grok 4.1 Fast 及 Agent Tools API 定价(图源:xAI)

API 地址:

https://console.x.ai/team/default/api-keys

OpenRouter 体验地址:

https://openrouter.ai/x-ai/grok-4.1-fast

01. 登顶智能体调用榜单,实测编程 " 翻车 "?

Grok 4.1 Fast 专门针对实际企业用例而训练,尤其在智能体调用方面提升较大。

通过在模拟环境中进行强化学习训练,Grok 4.1 Fast 接触到了涵盖数十个领域的各种工具。这种多样化的训练使 Grok 4.1 Fast 在 τ²-bench Telecom 测试中表现出色,以更低成本超过了 GPT-5.1(high)、Gemini 3 Pro、Claude 4.5 Sonnet 的性能。τ²-bench Telecom 是一个极具挑战性的基准测试,用于评估智能体工具在真实客户支持场景中的使用情况。

▲ Grok 4.1 Fast 测评表现(图源:xAI)

Grok 4.1 Fast 尤其擅长工具调用。随着开发者构建出功能越来越强大的自主智能体,这些智能体能够进行长期规划并独立运行,模型必须在不牺牲速度和成本的前提下提供智能体服务。

Grok 4.1 Fast 是 xAI 的答案:它是一款兼具前沿工具调用性能、极快推理速度和成本效益的模型。

▲ Grok 4.1 Fast 测评表现(图源:xAI)

智能体模型面临的一个常见挑战是,随着上下文长度的增加,其性能会下降。xAI 使用长时域强化学习训练了 Grok 4.1 Fast,并着重强调多回合场景,从而确保其在长达 200 万个 token 的上下文窗口中保持稳定的性能

▲ Grok 4.1 Fast 测评表现(图源:xAI)

智东西第一时间对 Grok 4.1 Fast 和 Grok 4 Fast 进行了对比测试,发现 Grok 4.1 Fast 在实时信息检索方面表现明显优于 Grok 4 Fast,但在经典编程问题上却发挥失常,不如 Grok 4 Fast。

当我输入经典试题:" 模拟一个旋转六边形内弹跳球 ",如下图所示,Grok 4 Fast 在几秒内生成了正确的模拟。

▲ Grok 4 Fast 实测表现(图源:智东西)

新版的 Grok 4.1 Fast 也是在几秒内完成,却出现了错误,与提示词要求不符,六角形框效果酷炫,但没出现关键的小球。

▲ Grok 4.1 Fast 实测表现(图源:智东西)

当我将测试升级为:" 模拟一个旋转六边形内弹跳球,有两个球体积相同,球 a 的质量是球 b 的 2 倍 ",Grok 4 Fast 依然能在几秒之内生成基本正确的模拟。

▲ Grok 4 Fast 实测表现(图源:智东西)

但新模型 Grok 4.1 Fast 直接出现了黑屏情况,没有一次模拟出要求的实验,并且无法修复成功。这可能是由于兼顾智能体调用、速度和性能仍是一件有挑战的事,但 Grok 4.1 Fast 是否在智能体和速度优化中损失了部分维度性能,仍需更多案例来验证。

▲ Grok 4.1 Fast 实测表现(图源:智东西)

不过,在需要依赖工具的实时检索信息上,Grok 4.1 Fast 比 Grok 4 Fast 表现更佳。

当我输入 " 关于本周 xAI 的重要新闻 ",如下图所示,Grok 4.1 Fast 和 Grok 4 Fast 的输出耗时都在几秒之内,但 Grok 4.1 Fast 输出的信息时效性更强、更全,覆盖了 " 今天 Grok 4.1 Fast 发布 " 这条新闻;Grok 4 Fast 未覆盖到今天的最新动态。

▲ Grok 4.1 Fast 实测表现(图源:智东西)

▲ Grok 4 Fast 实测表现(图源:智东西)

02. 联动智能体工具 API,几行代码浏览网页

xAI 同时推出了服务器端工具 Agent Tools API,使 Grok 4.1 Fast 能够作为完全自主的智能体运行

只需几行代码,开发者就可以让 Grok浏览网页、搜索 X 帖子、执行代码、检索上传的文档等。

▲仅需几行代码让 Grok 调用工具(图源:xAI)

这些工具完全运行在 xAI 的基础架构上,因此开发者无需再管理 API 密钥、速率限制、沙箱或检索管道。Grok 会决定何时以及如何使用这些工具,通常会在多个回合中并行调用多个工具,直到获得提供最终答案所需的所有信息。

▲ Agent Tools API 应用案例(图源:xAI)

Agent Tools API 可显著扩展 xAI 基础 Grok 模型的功能,主要功能包括:

搜索工具:利用实时 X 和互联网搜索,快速、全面地了解时事和趋势。

文件搜索:智能搜索并检索用户上传文件中的相关文档,并附上引用信息。

代码执行:在安全沙箱中执行 Python 代码,以分析数据并运行模拟。

MCP 工具:无缝连接到外部 MCP 服务器,从而可以访问强大的自定义第三方工具。

03. 擅长实时检索和深度研究,幻觉率降低一半

与 Agent Tools API 联合使用,实时信息检索和深度研究是 Grok 4.1 Fast 的一大核心优势。凭借与 X 生态系统的集成和网页浏览功能,由 xAI API 驱动的搜索智能体在基准测试中拿下高分。

X Browse 是一个内部基准测试,用于评估智能体在 X 上的多跳搜索和浏览能力。

Grok 4.1 Fast 在事实性方面树立了新的标准,与 Grok 4 Fast 相比,幻觉率降低了一半,同时在 FActScore 评估中仍能达到与 Grok 4 相当的性能。

▲ Grok 4.1 Fast 测评表现(图源:xAI)

xAI 将在 API 上发布 Grok 4.1 Fast 的两个变体:

grok-4-1-fast-reasoning,可达到最大智能。

grok-4-1-fast-non-reasoning,擅长即时回复。

接下来的两周,xAI 的模型和工具将在部分平台上免费提供:

xAI 与 OpenRouter 合作,免费提供 Grok 4.1 Fast。

xAI 通过 xAI Agent Tools API 完全免费提供所有智能体工具。

04. 结语:聚焦智能体,大模型竞赛升级

当下,AI 圈的模型和产品迭代陆续都开始聚焦智能体。这是市场需求倒逼技术升级的体现,当开发者构建出功能越来越强大的自主智能体,模型就需要提供更好的智能体服务,但又要注意不牺牲速度和成本。

马斯克本次推出 Grok 4.1 Fast,并配套提供易于集成的 Agent Tools API,在一众方案中显得更强调与实际应用场景结合。围绕 AI 智能体商业化落地的军备竞赛悄然升级,以 xAI 这种具备更强应用生态的企业具备优势。但话说回来,模型性能的稳定依然关键,Grok 4.1 Fast 的性能表现如何,还需要更多实测验证。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

马斯克 准确 人工智能 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论