十字路口Crossing 7小时前
刚刚,文心 5.0 发布,我们让它看了一集《无间道》
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

「原生全模态」靠谱吗?

作者 : 镜山

编辑 : Koji

‍ 排版 : NCon

昨天凌晨,OpenAI 正式发布了 GPT-5.1。相比于其模型「硬性能」,各个技术社区其实也关注其「更有人味」的交互体验。

无独有偶,就在 OpenAI 刷屏前,一个名为「ERNIE-5.0-Preview-1022」 的模型就因登上海外 LMArena 竞技场,在文本排行榜上以全球并列第二、国内第一的成绩,在海内外社区引发了一波热议。

而它备受关注的原因就是,该模型在创意写作、复杂长问题理解、指令遵循等方面表现突出,超过 GPT-5-High 等多款国内外主流模型。

而这个模型,便是百度今天正式对外发布的文心 5.0 的预览版。

除了创意写作之外,百度在发布现场,还展示了文心 5.0 在多模态理解、指令遵循、事实性、智能体规划与工具应用等方面的优势。

在这背后,百度文心大模型的核心技术标签,并非 2.4 万亿的参数规模,而是一个创新性的技术路径:「原生全模态」。

这距离我们上一次在《百度一口气开源 10 个模型 | 我们深入解读了这份开源技术报告》中详细分析文心 4.5 开源系列的多模态能力,仅仅过去了 4 个月。

那么这一次,文心 5.0 相比 4.5 究竟进化了多少?它所主打的「原生全模态」又到底是什么?

接下来,我们将分享对文心 5.0 这款「原生全模态」大模型的理解与全面实测结果。

首先,我们为什么需要「原生全模态」?

首先,「全模态」指的是:文本 + 图像 + 音频 + 视频。

全模态之所以受到关注,是因为「多模态」一直有一个没被捅破的「窗户纸」:我们现在绝大多数的模型,在模态上都是相对贫瘠的。

而「原生全模态」要做的,是去培养一个「通才」。而做到「通才」的关键是,需要从预训练开始,就同时接收语言、图像、视频、音频的「混合原生训练」。

所有模态的数据在模型的底层架构中就是融合的,目标是实现原生的、统一的理解与生成。

这为什么难?

因为不同模态的数据特性差异巨大,例如图像是空间并行的,而语音是时间序列的。这意味着,要将这些模态的数据融合到一个统一的架构中,并且让原本分离的「理解」和「生成」两个任务相互促进,技术上的投入将会非常高。

这也是为什么大家将对「原生全模态」关注都集中在大厂商上的原因。

那么,为什么我们现在迫切需要「原生全模态」?

原因之一在于,在如今的「模型即服务」时代,AI 厂商争夺的已经不仅仅是技术的领先地位,更重要的是让 AI 融入业务,现在大家的目光很大一部分都停留在了复杂的业务场景上,卷的不能再卷了。

全模态 AI 比单一模态更灵活,能够适应不同场景和各种应用,「像人一样」满足更多样化的需求,从而提升体验。

可以这么说,用户已经不再满足于仅通过单一文本进行问答,越来越倾向于通过「图像思维」和「视频思维」等多种方式进行互动,这一点,相信很多朋友会在各类社交平台、短视频平台发现这个趋势。

因此,投入更多资源开发「原生全模态」模型其实是顺理成章的,也正因如此文心 5.0 才引起了我们的关注。

为了验证文心 5.0「原生全模态」模型的实际效果,我们做了一系列真实场景的测试:

「原生全模态」的含金量 1)无间道视频解析

首先拿来测试的就是特别火的《无间道》天台经典片段,你会发现,大家每一个人都有各自的解说版本。

所以,我就想来拿来试一试文心 5.0 Preview 的视频理解能力。

就是下面这个刘德华和梁朝伟的对话片段:

可以直接上传这段视频到文心 5.0 Preview 中(不过有文件大小限制,无间道视频片段为 56 秒),让它解释下这段影片中的情绪变化和故事情节,提示词如下:

请分析以下电影片段的叙事意图。忽略你是否知道剧情背景,只根据画面、对话节奏、人物表情与构图来判断:1. 角色之间的关系;2. 场景的潜在情绪(紧张 / 防备 / 亲密 / 疏离);3. 导演希望观众感受到的 " 隐形情绪 ";4. 推测下一步剧情可能走向。

在文心 5.0 Preview 的深度思考链中,我发现它已经可以根据视频画面中细节进行深度的情感分析,识别人物之间的情感波动。

而且,整个深度思考过程的速度非常快。

甚至,角色关系、场景的潜在情绪、剧情走向,以及 2 人的微妙的动作都能视觉识别出来:

在最后的结果中,我发现文心 5.0 Preview 能够从文本、图像、视频等多模态输入中,提取和结合多层次的情感信息。

在这段分析中,文心 5.0 Preview 不仅能够理解人物对话的文本内容,甚至还能识别图像和视频中的情感符号(如人物表情、环境氛围),甚至能结合镜头特写(例如枪的特写镜头)。

例如,在分析角色 B 的经典「想做好人」的挣扎时,文心 5.0 Preview 能够通过视频中的细节(如 B 微妙的表情变化)和对话内容,准确推测出角色的情感变化:

我本来以为,是文心 5.0 Preview 直接在原有训练数据中搜索到了这是《无间道》片段,从而用网络信息搜索得出的答案。

但是,在文心 5.0 Preview 的答案的最后一句中,它特意强调:未依赖背景知识。

之后,我继续让文心 5.0 Preview:

将最紧张的片段视频输出出来

它虽然无法截图,但会精准定位原视频位置,并推荐画面:

为了验证它的准确性,我特意翻到了原视频并查看,结果发现它推荐的片段与原视频中的内容很一致:

在测试文心 5.0 Preview 在复杂场景中的情绪分析能力之后,我决定进一步挑战它,看看它是否能够原生解析结合了视频内容与复杂逻辑的场景。

我选择了电影《天道》中的经典禅学辩论片段,就是下面这段视频:

提示词如下:

请综合分析以下视频片段的语言内容、语气语调、表情和镜头切换:1. 双方在讨论的核心哲学问题是什么?2. 他们的观点有何差异?请指出逻辑立场。3. 说话语气与表情传达了怎样的情绪或心理(如平静、自信、讽刺、探问)?4. 哪些台词具有隐喻意义?请解释它的深层意图。5. 用一句话总结这段对话的 " 禅机 " 或哲学张力。

文心 5.0 Preview 能从对话的语气、表情、甚至隐喻里,抓住情感起伏的信息。它真的像是在读懂人背后的情绪逻辑,一边分析语言,一边理解氛围。

这种细致的分析和快速的推理过程,展示了原生全模态的优势:

3)人际关系图谱

接下来,我们再来试一试文心 5.0 Preview 的图像解析能力搭配复杂人际关系的解析。

下面这张图,其实是我从网上看到的一张很有意思的人际关系图谱:

在之前测试文心 4.5 时,我让它写了一段非常复杂的「豪门人际关系」。

这次,我想结合这段文字和图片,测试一下文心 5.0 Preview 能否准确将这些复杂的人际关系与图谱一一对应,并给出详细的分析。

首先,我上传了图谱图片,并结合下面这段文字内容,提示词如下:

穷小子林行舟,三十岁,出身普通工人家庭,靠奖学金念完大学,一路自力更生。 一次偶然,他在项目合作中结识了知名房地产集团的长女——沈知微。 两人闪婚,他 " 倒插门 " 入豪门沈家。 然而,沈家表面的体面与财富背后,是一张错综复杂的家族网。 林行舟成了这张网里唯一的 " 异物 " ——所有人都对他笑,但无人真正接纳他。 沈家表面光鲜、血脉高贵,却暗流汹涌。 长女沈知微是家族的理性中枢,婚后嫁给出身平凡的林行舟,成为豪门 " 异类 " 的唯一支点; 她深爱丈夫,却在父权与利益间摇摆。沈父沈国梁是集团的掌权者,笑容温和、手段冷酷,把这段婚姻当作一场资本博弈; 沈母白莺出身艺术界,极度维护门第,对女婿冷眼相待,只为守住自己脆弱的尊严与财富。 二子沈知远外表谦和,实则心思深沉,将林行舟视作潜在威胁,暗中布局陷害; 小女儿沈嘉宁叛逆清醒,对豪门生活厌倦,对姐夫心生复杂情愫,在混乱家局中成为不安定的引线。 唯有老管家白叔看透一切,暗中庇护林行舟,却也被卷入沈家隐秘的旧罪之中。 整个家族表面温情脉脉,实则层层算计、关系失衡,林行舟的到来就像一粒异质的沙,正在缓慢撕开沈家金碧背后的裂缝。 所以,根据我上传的图片(人际关系图谱),定位这一大家子人各自的角色位置。

首先,文心 5.0 Preview 完全解析了人际关系图谱中的各个角色位置:

在最后的结果中,文心 5.0 Preview 能够同时考虑多个维度的信息,并将其有机地整合到一起。

比如说,在这段分析中,它不仅结合了「人际关系图谱」的两个核心维度(横轴:弱关系→强关系,纵轴:短暂→持久),还考虑了角色间的关系性质(亲属、利益、情感联结):

4)十字路口播客音频

文心 5.0 Preview 对于音频内容的理解能力同样表现还不错。

为了测试它在复杂内容分析上的表现,我上传了十字路口的一段播客音频,并提供了一段相对复杂的提示词,要求它全面剖析音频中的逻辑结构。

提示词如下:

请分析这段播客讨论的逻辑结构:1. 每位嘉宾的主要论点;2. 推理链条中的假设与结论;3. 有无逻辑跳跃、循环论证或情绪化推理;4. 用一句话总结这场讨论的 " 思想结构 "。5. 他是如何从问题出发,逐步推导出观点的?6. 哪些语气、停顿或情绪变化标志着思维转折?7. 生成一个 " 思想剖面图 ":用编号表示思维层级(例:①问题提出→②假设→③辩驳→④反思→⑤结论)。

文心 5.0 Preview 能够准确地从一段内容中提取关键信息,并将其系统地结构化。例如,它总结了每位嘉宾的主要论点,还分析了发言人之间的关系,并清晰呈现了他们的背景信息。

这样,它就能够帮助我快速把握整段讨论的核心内容。

此外,文心 5.0 Preview 还会生成一个思维剖析图,帮助我理清讨论的思维层级结构,以下是它为我生成的思维剖析图:

① 问题提出(发言人 1) - 节目背景和宗旨介绍 - 邀请 AI 创业者和积极行动者分享经验 ② 假设与引导(发言人 2) - 通过快问快答形式引导嘉宾分享 - 假设听众对嘉宾背景和创业经历感兴趣 ③ 广乐的创业经历分享(发言人 3) - 加入九九房的原因和工作经历(③ a) - 对新鲜事物的兴趣 - 在九九房的业务探索和产品形态创新 - 红点直播、最右社区产品和票圈长视频的创业经历(③ b) - 不同创业阶段的选择和决策逻辑 - 当前公司在微信内视频平台和 AI 方向的创新型探索(③ c) - 对 AI 未来的展望和思考 ④ 思维转折与深入(发言人 2 和发言人 3 的互动) - 发言人 2 通过提问引导广乐深入分享 - 广乐在回答中的思维转折和深入 ⑤ 结论与展望(发言人 1 和发言人 3 的总结) - 发言人 1 总结节目宗旨和 AI 的价值创造机遇 - 发言人 3 分享对 AI 未来的展望和创业决心

好了,说完了文心 5.0 Preview 的多模态能力、情感分析和逻辑推理之后,我们再来看看它的编程能力如何。

5)Three.js 正方体编程

这是一个经典的 AI 大模型编程能力测试案例,我让文心 5.0 Preview 创建一个可变形、可交互、点击即可瞬间放大的三维线框几何体。

提示词如下:

使用 Three.js 创建可变形的三维线框几何体,并通过点击实现 " 脉冲 " 动画效果。 这个例子展示了一个立方体变形为球体、再变回立方体的过程。 当你点击或触摸该形状时,会触发一次 " 脉冲 " 动画。

即使在快速放大画面时,整体交互依然非常流畅,体验比较顺滑:

加入了更好的光粒子脉冲动画后,交互体验也还是很流畅:

6)一句话复刻 Netflix

最后,我发现在「一句话复刻网站」的表现上,文心 5.0 Preview 的 Coding 能力也还不错,给出的成果也比较成熟。

我要求文心 5.0 Preview 创建一个完整的 Netflix 克隆网站,提示词如下:

Create a detailed and complete code for a Netflix clone website using HTML, CSS, and JavaScript. The website should have a full UI mimicking Netflix 创建一个使用 HTML、CSS 和 JavaScript 的 Netflix 克隆网站详细且完整的代码。该网站应具有模仿 Netflix 的完整 UI

它使用 HTML、CSS 和 JavaScript 快速生成了一个模仿 Netflix 的 UI 界面,甚至在每个剧集点击后能够展示详细简介。

文章写到这里,我们能看到大模型竞赛的目标已更加明确:一是「多模态」的深度融合,二是「Agent」的高价值任务执行。

而「原生全模态」正是这两个赛道的共同基础。

所有人都清楚,谁能率先高效地实现「全模态的统一理解与生成」,谁就可能在下一代 AI 应用中展现更大的潜力。

从这个角度看,一群主要玩家选择「原生全模态」作为主打方向,实际上是在进行一次「All-in」式的执行,赌的是下一个「技术 Point」。

当核心架构选择了「原生全模态」这条行业公认的「难而正确」的道路时,这至少证明了一件事:

语言、图像、视频和音频正在深度融合。

在这一基础上,一个真正属于 AI 应用的「贝尔实验室」时期,才刚刚开始。

评论
不赖的皮特...
5小时前
上次接了个电话,是可以在某ai上投广告的!
大家都在看