IPO早知道 05-13
阶跃星辰姜大昕:追求AGI的初心不变,要在多模态能力和Agent方向做出差异化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

行业的技术发展还是在非常陡峭的区间,阶跃不想在这个过程中放弃主流增长或前进的趋势。

本文为 IPO 早知道原创

作者|Stone Jin

微信公众号|ipozaozhidao

  

据 IPO 早知道消息,阶跃星辰的创始人、CEO 姜大昕博士日前分享了其对当下大模型发展的理解以及对阶跃星辰未来的展望。

整体而言,姜大昕博士认为:

首先,跃目前的状态是坚持基础大模型的研发,追求 AGI 是阶跃的初心,阶跃对此也不会改变

其次,在当前的竞争格局中,阶跃差异化的特点就是多模态的能力,不仅眼下很多模态在业界的性能是领先的,而且阶跃也在积极地探索前沿的方向,并且也认为这里还存在着非常巨大的机会。

第三,在应用的层面,阶跃也走了一条差异化的路线,携手合作伙伴在智能终端   Agent 这个方向上发力,最终形成一个从模型到 Agent,从云侧到端侧的生态体系,因为阶跃认为软硬结合是能更好地理解用户的需求,完成用户的任务。

" 行业的技术发展还是在非常陡峭的区间,阶跃不想在这个过程中放弃主流增长或前进的趋势,所以我们还是会坚持做基础模型的研发。而从应用的角度来看,我们一直觉得应用和模型是相辅相成的,也就是说模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。" 当被问及为何坚持基础大模型研发时,姜大昕博士如是表示。

以下系经「IPO 早知道」整理的分享精选:

追求智能的上限仍是当下最重要的一件事

姜大昕博士指出,自 2 月以来,国外头部几家做基础大模型的公司一直在你追我赶、轮番发布,非常密集地发布了一堆模型。通过这些发布,其实可以感受到一个趋势,就是 " 追求智能的上限 " 仍然是当下最重要的一件事。

若拆分来讲,姜大昕博士认为当下基础大模型的发展主要呈现出两个趋势:1、模仿学习到强化学习;2、从多模态融合走向了多模态理解生成一体化。

而之于阶跃星辰而言,在过去的两年时间里,阶跃星辰建立了一个 Step 系列的通用大模型的矩阵——首先,阶跃星辰把基础模型分成了语言模型和多模态模型。其中,多模态还可以继续细分,按照模态细分有图像、有视频、有语音、有音乐;按照功能来分则又可以分成生成模型和理解模型,比如说图像同样一个模态,我们有图像理解和图像生成,因此多模态是一个非常大的系统。

"在国内的大模型公司里面,像我们这样重视模态的全覆盖、并且坚持原生多模理念的公司并不多,但阶跃从一开始就始终认为多模态对通用人工智能非常重要。有一句话我也在很多场合不停的重复,我们认为多模态是实现   AGI 的必经之路。" 姜大昕博士表示。

谈及为何保有这一信仰时,姜大昕博士解释称,首先 AGI 对标的是人类智能,人的智能是多元化的,每个人除了有来自语言的符号智能,还包括视觉智能、空间智能和运动智能等等,这些智能是需要通过视觉和其他模态来进行学习的。所以阶跃认为,在多模态领域任何一个方向出现短板,都会延缓实现 AGI 的进程。

除了从 AGI 本身的标准和定义来说,如果从应用的角度来看,不管是做垂直领域的应用还是做 C 端的应用,多模态都是必不可少的。" 我们是需要 AI 能听、能看、能说,这样它才能更好地理解用户所处的环境,并且和用户进行更为自然的交流。目前的大模型公司有能力去全面自研预训练模型,并构成这样一个模型矩阵的,即使是大公司也不多,更不用说是初创公司了,这是阶跃星辰的一个特色,也是我们的一个优势。"

多模理解生成一体化是一大趋势

姜大昕博士本次还分享了其观察到的一大趋势——多模理解生成一体化,更准确来讲则是视觉领域的理解生成一体化。(" 理解生成一体化 " 的定义是理解和生成是用一个模型来完成

一方面,生成的内容需要理解来控制,为了保证生成的内容有意义、有价值,实际上是需要对它的上下文做一个更好的理解,这就是所谓的生成需要理解来控制;另一方面,理解也需要生成来监督。" 在 ChatGPT 的时候,大家知道它唯一的任务就是 predict next token,它 predict next token 这个过程就是在生成,在整个训练的过程中就是看你 predict next token,predict 的对还是不对,来做监督,它就可以一路的这样,生成完成以后再回到框架做理解,这样一步一步下去,就实现了自然语言的理解比以前的各种模型出现了一个断代式的领先。所以如果我们把 predict next token 这样一个任务平移到视觉领域就会问,我们能不能用一个模型去做 predict next frame?这是视觉领域的一个灵魂拷问,到现在为止计算机视觉做了几十年,不幸的是这个问题仍然没有被解决。"

针对理解生成一体化这一点,阶跃星辰前不久刚刚发布的模型 Step 1X-Edit 就是一个比较好的案例——当对图片进行修改时,对原先图片的忠实度非常高,背后的原因就在于阶跃星辰采用了一个理解生成一体化的模型。

这里不妨补充一点,阶跃星辰日前发布并开源的图像编辑大模型 Step1X-Edit 性能达到开源 SOTA ——该模型总参数量为 19B ( 7B MLLM + 12B DiT ) ,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。一句话总结的话,Step1X-Edit,不只能 " 改图 ",更能 " 听得懂、改得准、保得住 "。

" 当然这个还是比较初级的阶段,我们内部还在开发一个更高级的版本,未来几个月也会把更先进的技术发布出来。" 姜大昕博士表示。

值得注意的是,姜大昕博士强调,理解生成一体化的路线阶跃星辰成立之初就设定好

将智能终端 Agent 作为自己的重要方向之一

事实上,除了在基础模型端发力外,阶跃星辰一直秉承" 超级模型加上超级应用 " 双轮驱动的策略

在姜大昕博士看来,Agent 爆发需要两个必要的条件,一是多模态能力,另外一个是慢思考的能力,这两个能力恰好在 2024 年的时候取得了突破性的进展。

截至目前,阶跃星辰基于自身的模型矩阵,和合作伙伴一起打造了垂类的 Agent 和智能终端的 Agent。其中,除了金融财经、内容创作、新消费等过去一段时间阶跃星辰已有一定积累的领域外,阶跃星辰今年在智能终端 Agent 方面着重发力。

姜大昕博士指出,之所以选择智能终端 Agent 作为自己的方向,是因为阶跃认为 Agent 要能更好地帮助人类去完成任务,需要去理解用户所处的环境和任务的上下文。"智能终端是人的感知和体验的延伸,所以在你发起任务的时候它已经知道任务的上下文了;同时,很多的智能终端或者是终端设备,就是帮你完成任务。"

进一步来讲,阶跃星辰当前在智能终端上选取了几个重要的终端,一个是手机、一个是车,还有一个是机器人,并已和 OPPO、吉利、智元机器人等各个方向的头部企业展开了深度的合作。

谈及 C 端产品的商业化问题时,姜大昕博士表示,DeepSeek带来的一个经验就是,投流的逻辑不成立

" 要重新思考一下 AI 时代的产品的流量增长是不是真的像传统互联网那样靠投流上去的,DeepSeek 出来以后给大家一个重新看待这个问题的窗口。不光是 DeepSeek  ,像《哪吒 2》、《黑神话悟空》等其实都有一些共性,不靠铺天盖地地投流积累用户。" 姜大昕博士说道,"我们的智能终端其实是 ToC 的,虽然我们和头部企业合作,但阶跃和这些企业合作的产品最终服务 C 端,作为助手类也好、内容类也好还是有非常大的机会。"

本文由公众号 IPO 早知道(ID:ipozaozhidao)原创撰写,如需转载请联系 C 叔↓↓↓

|||

|||

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

人工智能 初心 ipo 创始人 ceo
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论