量子位 4小时前
2.4万亿参数原生全模态,文心5.0一手实测来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

刚刚,文心 5.0正式发布了!

全新一代主打原生全模态,最开始就把语言 / 图像 / 视频 / 音频放在同一套自回归统一架构里,做统一的理解与生成训练。

所以,最终模型能够做到支持全模态输入(文字 / 图片 / 音频 / 视频)+ 全模态输出(文字 / 图片 / 音频 / 视频),创意写作、指令遵循、智能体规划方面也更强了。

在官方展示中,上传一个电影片段,它立马就能分析出最紧张的情节,具体到第几秒到第几秒的那种。

同时上传一段视频和一段音频,就能让它指出视频里是否有用到音频里的音乐,还能说出节点:

做音视频融合生成也行,简单操作即可爆改甄嬛传滴血认亲(佟掌柜版):

拿来生成 3D 交互式地球与卫星演示模型,用户可以通过鼠标拖拽旋转视角,直观地观察地球与卫星的空间运动关系:

官方基准测试结果显示,文心 5.0 Preview 在语言、视觉理解、音频理解、视觉生成多维度表现突出

就在几天前,文心 5.0 Preview(ERNIE-5.0-Preview-1022)还闪现大模型竞技场 LMArena,在文本排行榜(Text Arena)上得分 1432,与 gpt-4.5-preview、claude-opus-4-1、claude-sonnet-4-5 等并列全球第二,位居国内第一

当时,不少在 LMArena 体验过的网友给出好评。

更有网友追问啥时候正式上线。

这不,现在它来了。

目前,文心 5.0 Preview 已上线文心一言网页版、文心 App;同时上线百度千帆大模型平台,提供 API 服务。

不过,Preview 版暂且先支持全模态输入(文 / 图 / 音 / 视频)+多模态输出(文 / 图)。量子位了解到,能实现全模态输出的满血版现在正在进行产品体验优化,之后会陆续推出。

那就先让文心 5.0 Preview 带我们一探,文心 5.0 体验感究竟如何。

文心 5.0 Preview 实测,原生全模态强在哪?

先来看输入方面,文心 5.0 Preview 支持全模态输入。

在单次交互中,不论是文档、图片,还是音频、视频,都能一口气发给它,可跨文件类别混合上传。

具体规则如下:

接下来,整活儿~

多模态理解推理全面强化

在多模态理解能力上,我们上来就给它看了一段跳水比赛史上的名场面:

给出简单的 prompt:这个视频中发生了什么?有什么好笑的?

只见文心 5.0 Preview 和之前的深度思考模型一样,先进行了一轮自我思考,包括回顾视频内容、描述视频、找出好笑的地方以及确认了更多细节,紧接着快速给出了结果。

这波回答什么水平?

细看文心 5.0 Preview 的理解分析,咱只能说,理解的精细度有点离谱了。

从起跳、空中翻转到入水,各动作阶段拆得门清;一闪而过的选手信息、动作名称、难度系数,也都被它精准捕捉到了。

同时,它甚至还带有视频情感理解能力,注意到了选手的表情——起跳时皱着眉、咬着牙,像是在硬着头皮往下跳。

" 入水瞬间水花越小越厉害 "" 压水花 ",这些行规它也懂。

真正的神来之笔,是它连视频中的慢放片段都能识别,还点明慢动作回放补刀。

好好好,下一题。

搬出 " 你怎么穿着品如的衣服啊?" 这一电视剧名场面,问:品如穿的什么颜色的衣服?

这时,文心 5.0 Preview 又当如何作答?

结合视频中的台词,文心 5.0 Preview 轻松答对:

上难度。

那么," 视频中的女人是品如吗?"

这次文心 5.0 Preview 依靠智能体能力自主调用了搜索工具,通过角色名等线索,将这一幕准确定位为出自电视剧《回家的诱惑》。

值得一提的是,它最后是根据角色的性格特征,分析出视频中的不是品如的

并且也是通过性格特征推测,穿着品如粉色衣服的这个人,大概率是艾莉。

不得不说,这理解能力确实让人眼前一亮。

那再来一张难倒不少大模型的带有文字的谐音梗图,看它能否理解透彻:

通过思考,图片理解对它来说更是不在话下了:

最后,咱下班路上路过卖炒货的摊儿,顺手拍了几秒的视频上传给文心 5.0 Preview。

尽管视频分辨率不是很高,它也能抓到细节,算出两斤糖炒栗子、一斤炒内蒙瓜子、一斤现炒四粒红花生一共多少钱。

要说瑕疵的话,就是没区分会员价和非会员价,默认按会员价计算。不过视频确实有点糊,也难怪看不清。

测试下来不难发现文心 5.0 Preview 的特点——

它不仅能识别画面中的内容,而且还能精准捕捉到各种细节,同时擅长结合视频情节、台词等多模态内容,理解其中的情感氛围和叙事意图

另外,在综合推理、跨模态信息整合、复杂场景判别方面,文心 5.0 Preview 也更强,不容易被单一模态误导,能从多个角度判断画面的合理性。

更多用法,随你发挥

除了上面这些用法,基于全模态输入 + 多模态输出,还能玩出更多花样。

比如文图混合输入生成新图。

秒秒钟把家里的猫猫打扮成 " 高雅人士 ":

日常学习工作中,我们常需高效获取视频、音频的核心内容。只需上传,文心 5.0 Preview 就能快速完成总结。

而且别忘了文心 5.0 Preview 一次性最多能上传 10 个视频,多任务内容整理轻松搞定。

以李飞飞团队最新成果 Marble 的宣传片为例,它不仅能精准提炼核心主题,还能条理清晰地梳理完整情节,就算台词很少,它也能根据画面讲清楚细节。

更多功能,大家伙可以自己亲自上手多测一测。

原生全模态技术背后

从技术上来看,文心 5.0 这次的设计以 " 原生统一 " 为目标,走的是非后期拼接的原生全模态路线。

过去的多模态模型通常是各模态独立训练、后期再进行特征拼接或融合,这种方式虽然工程上更易落地,但在语义对齐、信息互证和效率上存在天然瓶颈。

文心 5.0 的方法是从训练伊始,就将语言、图像、视频、音频等多模态数据放入同一套架构中联合学习,使模型在底层就能形成跨模态的内在关联与理解逻辑。就像人看到闪电会联想到雷声,文心 5.0 也在试图建立这种跨模态的直觉。

为了实现这种统一的理解,它采用了自回归统一结构

通过对不同模态的训练目标进行离散化建模,使多模态特征得以在统一的架构中充分融合与协同优化。这意味着,无论输入是文字、图像还是音频,都会被映射到统一的表征空间中,用同一套逻辑结构进行处理与解码,从而打通模态间的边界。

为同时兼顾知识容量与运行效率,文心 5.0 引入了当前大模型主流架构——超大规模混合专家架构

该架构在保持模型性能的同时,通过稀疏激活机制显著降低了计算负载。每次推理只会激活与任务最相关的专家模块,实现能力全面与成本可控的平衡。

官方透露,在底层实现上,百度飞桨深度学习框架提供了关键支撑。

训练端,通过多模态编码器分离异步训练架构、动态自适应显存卸载、细粒度通信计算重叠编排及 FP8 混合精度训练,文心 5.0 实现了万亿级参数模型的高效分布式训练。

推理端,基于多模编码器 - 预填充 - 解码 - 多模生成器的多级分离推理部署框架,结合超稀疏混合专家、数据负载和注意力计算的均衡算法,以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术,大幅降低了推理成本。

整体而言,文心 5.0 的模型总参数规模超过 2.4 万亿;其超稀疏激活参数设计,激活比例低于 3%,在保持模型性能的同时显著优化了计算与推理效率。

另外,文心 5.0 的能力还延伸到智能体与工具调用的执行层。

通过在真实和模拟环境中合成长程任务轨迹数据,并结合思维链、行动链与多轮强化学习训练,模型在任务规划、工具使用和决策执行方面实现了系统性提升。

今年完成的又双叒一轮迭代

近一年,大模型领域的竞争逻辑发生转变。

行业正越来越注重底层架构创新、训练与推理效率、落地成本等多维度的综合考量,各厂商也在技术路径上寻找差异化突破口。

从百度今年基础模型的迭代节奏来看,更新步伐持续加快:

4 月,发布文心 4.5 Turbo 和文心 X1 Turbo,增强多模态能力和推理能力。

6 月底,文心 4.5 系列,包括 47B、3B 激活参数的混合专家(MoE)模型及 0.3B 参数的稠密型模型等 10 款模型,宣布开源,预训练权重和推理代码上均做到完全开放。

9 月,文心 X1.1 深度思考模型发布,在事实性、指令遵循、智能体能力上持续提升。其开源模型 ERNIE-4.5-21B-A3B-Thinking 在抱抱脸全球模型总趋势榜和文本模型趋势榜均排名第一。

伴随底层模型的迭代,如百度电商数字人、百度搜索等上层应用也在持续演进,逐步承接模型能力。

这一次,文心 5.0 原生全模态模型的推出,也是百度从最底层实现的又一次差异化突破。背后撑起这一跃的,是百度在底层架构、算法训练、推理优化及生态协同等全链路环节上的系统性积累。

在多模态 " 强推理 " 和 " 深理解 " 方向,百度正在探索下一阶段模型能力的边界。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

卫星 量子位 文心一言 百度 甄嬛传
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论