量子位 03-08
40%算力训练效果比肩GPT-4,实测DeepMind联创大模型创业新成果
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型竞赛,又杀出一匹黑马——

Inflection-2.5,由 DeepMind 联创 Mustafa Suleyman 的大模型初创公司打造。

只用 40% 的计算资源训练,表现就超过了 GPT-4 的九成,尤其擅长代码和数学。

而早期的 Inflection 模型,训练时只消耗了 4% 的计算资源,就达到了 GPT-4 表现的 72%。

以 Inflection 模型为基础,该公司还推出了网页端对话机器人 Pi,主打 " 高情商 " 和 " 个性化 ",还支持中文。

自诞生以来,Pi 的最高日活达到了 100 万,累计产生了 40 亿条消息,平均对话时长来到了 33 分钟。

而随着这次基础模型的升级,Pi 也迎来了它的新版本。

那么,Inflection,或者说 Pi,表现到底有没有那么强,量子位进行了一番实测。

无需登录即可使用

打开 Pi 的页面,映入眼帘的是这样一个极简界面,而且还可以不用登录,直接点击 Next。

连续 Next 几次后,输入希望 Pi 称呼我们的方式。

之后是选择声音和推荐话题,直接跳过就可以了,然后就进入正式的聊天界面了。

简单测试发现,Pi 支持中文对话,既然如此那就先把弱智吧 Benchmark 给安排上。

第一题,老鼠生病了可以吃老鼠药治好吗,Pi 成功解答。

再来一道 " 陷阱 " 题,这次依旧没有上当。

两道问题过后,虽然没有出现什么戏剧性效果,但看起来对中文也是有一定的理解了。

接下来就重点看看官方宣称 " 尤其擅长 " 的数学和代码能力。

首先是一道涉及动态规划的编程题目。

Pi 给出的代码成功解决了这个问题,并且配有清晰的解释。

接下来再提升一下难度看看,让其分析一个数字的阶乘中末尾有多少个 0。

Pi 给出的代码不仅正确,而且简洁高效,运行速度超过了 LeetCode 上 73.8% 的用户。

最后再来增加一下难度,以一道 47.5% 通过率的题目结束代码部分的测试。

看完代码,再来测测 Pi 的数学能力怎么样,让它做做关于导数的题目:

求出函数 f ( x ) =x ³ +2x ² -1 的极值点

解答完全正确,而是十分详细。

当然要想数学好,逻辑思维是必不可少的,所以我们在常规的数学题之外,又用一道经典的题目考验了一下的 Pi 逻辑思维,结果还不错。

通过 Pi 的表现,可以看出其背后的 Inflection-2.5 模型的确可圈可点。

而从官方自己公布的测试数据来看,无论是综合能力还是各个子项,Inflection-2.5 的表现都紧随 GPT-4。

以数学和代码为例,Inflection-2.5 在 MATH、HumanEval 等测试中都比 1.0 版本都有大幅飞跃。

在这些常规的数据集之外,Inflection 还挑战了匈牙利高考数学试题和 GRE 物理测试,结果几乎与 GPT-4 打成平手。

更 " 刁钻 " 的,还有人专门用大模型难以理解的问题构建了一个 BIG-Bench 数据集,而 Inflection-2.5 挑战了其中的 Hard 子集,结果和 GPT-4 的差距不到一分。

那么,Inflection-2.5 的背后,是怎样的一家公司呢?

DeepMind 联创大模型创业

这家公司名叫Inflection AI,由 DeepMind 联创 Mustafa Suleyman 等人于 2022 年创立,目前共有 70 余人。

同样来自 DeepMind 的,还有资深研究员 Karen Simonyan,现担任 Inflection AI 的首席科学家。

此外,LinkedIn 联创 Reid Hoffman 也参与了 Inflection AI 的创立。

创立以来,Inflection AI 已经获得了来自英伟达、微软、比尔盖茨等巨头的共计 15 亿美元的融资。

目前,基于 Inflection 的 Pi 还是免费的,但 CEO Suleyman 也表示,一直用爱发电不现实,长久地看以后还是要收费。

想要体验的朋友,可能要抓紧时间了 ~

传送门:

https://pi.ai

参考链接:

[ 1 ] https://inflection.ai/inflection-2-5

[ 2 ] https://www.axios.com/2024/03/07/inflection-ai-chatgpt-openai-comparison

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

联创 效果 数学 deepmind 界面
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论