硅星人 04-02
上来就是万亿模型,要单挑大厂的阶跃星辰就是中国版Inflection AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

生成式 AI 狂奔的 2023 年,美国在各个细分领域涌现出了一批独角兽公司。

其中,Inflection AI 凭借不到 50 人的规模,在两年内融资超 15 亿美元,估值近 40 亿美元,被称为 "OpenAI 最大的竞争对手 ",不仅推出了基础语言模型 Inflection-1 和 Inflection-2.5,旗下对话产品「Pi」在众多聊天机器人产品中脱颖而出,一度被认为是比 ChatGPT 更人性化的对话产品。

如今,中国版的 Infection AI 出现了。

在蛰伏一年后,2024 年初,由前微软全球副总裁姜大昕所创办的阶跃星辰正式对外公开亮相,一口气发布了 Step 系列通用大模型,包括 Step-1 千亿参数语言大模型,Step-1V 千亿参数多模态大模型,以及 Step-2 万亿参数 MoE 语言大模型预览版——这也是国内初创公司里面的首个万亿参数大模型。

这张来自创业公司交出的成绩单,无论放在去年还是今年,都称得上亮眼。

当我们对比了两家公司的创始人的传奇经历,技术思路、产品重心,还是独角兽公司的特质,阶跃星辰与 Inflection AI 都有着诸多的相似之处。

第一部分:传奇创始人和团队

Inflection AI 被业界和投资人认可的一个重要原因,来自于他的创始人和创始团队。

Inflection AI 的创始人 Mustafa Suleyman(现任微软 AI 首席执行官),曾是 DeepMind 联合创始人。2010 年,26 岁的 Suleyman 与几位好友共同创立了 DeepMind,自己则担任 DeepMind 的首席产品官。而后便开始了在 DeepMind 漫长工作的 10 年。

另外两位 Kar é n Simonyan、Reid Hoffman,其中 Kar é n 是他这一代中最有成就的深度学习研究领导之一,曾在牛津大学完成博士学位和博士后毕业,曾任 DeepMind 首席科学家,建立并领导了大规模深度学习团队,开发现实世界数据的大型 AI 模型。

而 Reid 则是一位出色的企业家,2003 年,他与伙伴共同创立了世界最大的专业网络服务 Linkedln,也曾任 PayPal 执行副总裁。

和 Inflection AI 强大的团队背景相似,阶跃星辰的创始团队在创业前,也曾在微软 " 叱咤风云 "。

2007 年,阶跃星辰创始人姜大昕便加入微软亚洲研究院任首席研究院,自此开启了在微软长达 16 年的职业生涯。在机器学习、数据挖掘、NLP 和生物信息学等方面拥有多年的研究和工程经验,也曾在 2008 年获得 SIGKDD 最佳应用论文奖。

而后的 2011 年,姜大昕转入 STCA(微软亚洲互联网工程院),并于 2017 年成为微软全球合伙人,担任 STCA 副院长及首席科学家。

姜大昕带领团队在 2019 年将 Bing 智能问答功能,包括十几种语言、扩展至全球 100 种语言和 200 个地区,为了提高 Bing 使用的包容性和可访问性,引导用户在网络文档中获得最简洁、最准确的答案,进一步节省用户的时间和精力。

直至 2023 年 3 月,姜大昕升任微软全球副总裁,全面负责微软必应搜索的技术研发工作。团队人数达到了 400 名,包括研究搜索、AI 算法、应用程序和平台应用的科学家、工程师等,全面负责 Bing 的全球搜索体验工作。

不出什么意外的话,姜大昕几乎能在微软 " 养老 "。

但他却选择了 " 激流勇退 "。

" 我意识到 ChatGPT 是一个划时代的技术变革。一定要自己下场,以最快速、最灵活、最全面的方式来投身到变革中去。" 在之后的采访中,姜大昕提到,ChatGPT 的横空出世,是一个划时代的技术性变革,但如果继续待在微软,他只能在 OpenAI 的模型上去做一些应用尝试,但模型的「黑盒」并不会向他开放。

基于多年的算法经验,姜大昕想试试打开「黑盒」,从底层做出更大的颠覆。

但搞 AI,只有算法和想法显然是不够的。

很快,姜大昕找到了微软 Bing 引擎核心搜索团队负责人焦斌星任阶跃星辰数据团队负责人,这位同样在微软工作了 11 年的 " 数据老炮 ",在跨语言数据的积累上有独特积累,而这对于中国大模型训练的优化和训练效率与质量的提升,至关重要。

还在微软时,二人就听说过外界盛传大模型时代的 " 数据荒 ",Scaling Law 所需要的数据不够用了,当置身创业角色中时,发现不仅数据不够用,算力也不够用了。

姜大昕又瞄上了曾在微软研究院,拥有多次单集群万卡以上的系统建设和实战经验的朱亦博,任阶跃星辰系统负责人。

如此,这个脱胎于微软的创业团队,组成了一个集算法、数据和算力三大要素为一体的最强组合。

这种强,也体现在他的大模型和产品中。

模型训练,主打一个高效!

虽然 Inflection AI 和阶跃星辰都是创业公司,但他们的大模型性能还是 " 很能打 " 的,甚至直逼 GPT-4。

官方测试数据显示,Inflection-2.5 在关键基准测试中与 GPT-4 并驾齐驱;中国大模型评估平台「司南」多模态模型评测榜单显示,阶跃星辰的 Step-1V 千亿参数多模态大模型位居第一名,性能比肩 GPT-4V。

作为创业公司,为何能在极其有限的资源条件下达成这样的成绩?追本溯源,其原因都在于两家公司都在追求高效的大模型训练方式。

Inflection AI 的整体思路是用尽可能少的训练计算量来达到同等的效果。比如,Inflection-1 只用了 GPT-4 训练计算量的 4%,Inflection-2.5 仅用了 GPT-4 训练计算量的 40%。但最后呈现的效果却十分惊艳,Inflection-1 在不同的智商导向任务中,平均性能达到 GPT-4 水平的大约 72%,Inflection-2.5 平均性能则能达到 GPT-4 的 94% 以上。

秉承着 " 大力出奇迹 " 的基本宗旨,阶跃星辰把训练千亿级、万亿级的 " 巨无霸 " 工作量分解为了四个要素,分别为算力、系统、数据和算法,这也被其命名为 " 铁人四项 " 超级工程。众所周知,算力、算法和数据是 AI 的三要素,在此基础上阶跃星辰另外搭建了一个集群万卡管理系统,能够有效提升算力训练效率。据阶跃星辰官方称,训练千亿模型的 MFU(有效算力输出)达到 57%。

尽管两者都在大模型训练过程中践行着相似的技术思考,但关于未来最终通往哪里,Inflection AI 和阶跃星辰却有着不同的设想。

Infection AI 认为无论未来呈现的是哪种大模型形态,对话都是必备的。所以,Infection AI 将多轮对话的单点技术发挥到了极致,并进行不断地迭代更新。

姜大昕则认为,AGI 是未来,通往 AGI 会经历单模 - 多模 - 世界模型三个阶段。现如今,阶跃星辰推出的 Step 系列大模型被姜大昕视为 " 理解多模和生成统一的基础 "。

在产品侧,Infection AI 和阶跃星辰都不约而同地瞄准了 C 端方向。Infection AI 推出了助手类应用产品「Pi」,以语音和情感对话为特色在消费用户市场打出了特色,一度成为了 " 明星 AI 产品 "。阶跃星辰大模型刚面世,也带来了两款应用,一个是聊天类应用跃问,定位为个人效率助手。一个是 AI 开放世界平台冒泡鸭,提供海量智能体,内容形式类似国外的 Character.AI,主打休闲娱乐的功能。

「Pi」的特点在于 " 情感 " 和 " 有趣 ",而姜大昕则希望产品能有有趣的灵魂:" 我把模型和产品的关系比喻成灵魂和皮囊。大家一定听过一句话,好看的皮囊千篇一律,有趣的灵魂万里挑一。我们希望灵魂能更加有趣一点才能显示出产品的不同。"

创始团队的过硬的背景、技术战略的相同选择、产品落地的共同期待,让阶跃星辰成为最像 Inflection AI 的中国公司。

不过,Infection AI 如今已经 " 人去楼空 ",创始团队被微软尽数挖走,希望阶跃星辰不会效仿这样的结局。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

微软 deepmind 创始人 深度学习 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论