IT时报 04-29
商汤日日新SenseNova U1开源发布 图表、图文保真度跨越式提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

4 月 29 日,商汤科技发布并开源日日新 SenseNova U1 系列原生理解生成统一模型。它基于商汤今年 3 月自主研发的 NEO-unify 架构,在单一模型架构上统一了多模态理解、推理与生成。

以往我们用 AI 生成的图表、海报等图文作品时,文字常常产生乱码、扭曲等现象。而 SenseNova U1 系列模型能够将语言与视觉信息作为统一的复合体直接建模,实现语言和视觉信息的高效协同,让理解与生成能力同步增强,在保留语义丰富度的同时,维持像素级的视觉保真度。

更重要的是,它能够深度理解物理世界的复杂布局与精细关系。未来,它能为机器人提供具身大脑,实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程。

本次开源发布的是 SenseNova U1 的轻量版系列 SenseNova U1 Lite。它包含两个不同规格的模型:基于稠密骨干网络的 SenseNova-U1-8B-MoT 与基于混合专家骨干网络的 SenseNova-U1-A3B-MoT,已在 GitHub、Hugging Face 等社区开源,近期还将公布详实的技术报告,并上线办公小浣熊开放体验。

一个大脑 理解图像与语言

效率,是统一模型架构的核心技术优势。

传统多模态模型是把视觉编码器和语言骨干通过适配器拼接在一起的。它像一个 " 说不同语言的人组成的工作组 ":有人专门看图,把图像翻译为语言,有人专门理解文字,进行推理,有人把结果再翻译为设计指令,把图画出来。每完成一次任务,信息都要在不同成员之间来回传递。这个过程虽然可行,但难免会有等待、误解和信息损耗。为了弥补这些损耗,模型往往需要做得更大才能达到好的效果。

SenseNova U1 是基于统一表征空间构建的,更像是一个从一开始就同时掌握多项技能的人。它不是先看懂图像、再翻译成文字、再交给另一个系统理解,而是在同一套 " 思考方式 " 里直接处理图像、文字等不同信息。图像和语言不再是两套系统之间的接力,而是在同一个大脑中自然融合。这样带来的好处是信息流转更快捷,理解更直接,生成更高效。模型不需要依赖单纯堆大参数来弥补中间转换的损耗,而是通过统一的内部表征,把不同模态的信息以更紧凑、更高密度的方式组织起来。

简单来说,传统架构像是 " 多人协作、层层转述 ";SenseNova U1 更像是 " 一个全能大脑,直接理解,直接表达 "。少了中间转译,信息损耗更低,也能在相对更精简的模型规模下,实现更强的多模态理解与生成能力。

在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite 均达到同量级开源模型 SOTA 水平。甚至仅凭 8B-MoT 的较小规格,就能达到甚至超越部分大型商业闭源模型。

在通用的图像生成测试中,SenseNova U1 Lite 不但在图像生成质量上比肩 Qwen-Image 2.0 Pro 或 Seedream 4.5 等大型闭源模型,达到商业级水准,还在推理响应速度上有显著优势。

即使在极具挑战性、开源模型一直做不好的复杂信息图生成任务中,SenseNova U1 Lite 也表现出商业级的水准,对复杂信息图的排版和文字有很强的控制力。

业内首创 连续性图文创作输出

NEO-unify 架构摒弃了主流的拼接式,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并且融入每一层计算中,实现从模态集成向原生统一的范式跨越。

凭借该原生架构,SenseNova U1 在业内首次实现连续性的图文创作输出,并且只需要单次单模型调用,就能输出更高质量的作品,相比传统范式,实现了效率的大幅提升。

SenseNova U1 所具备的原生图文理解生成能力,能天然将图像和文本底层融合信号完整地保留在上下文中,区别于过去只能利用多模型串联勉强实现。

例如,我们要输出一张五分熟牛排做法的菜谱。SenseNova U1 可以通过思考和规划产生分步的过程,并且给每一步输出对应的图像展示,各个步骤的图示表现出极高的一致性。

当绘制一个钢铁侠图案时,该模型可以从扫描草稿出发,逐步进行连续创作,最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持,统一表征的共享上下文在其中发挥了关键作用。

原生统一的多模态智能是通往 AGI 的必经之路。未来,商汤将推出更大参数规模的 U1 系列模型。基于原生架构,可以更低的计算成本达到国际顶尖模型的水平。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 开源 商汤 技能 物理
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论