昆仑万维于 7 月 30 日正式推出并开源其多模态统一预训练模型 Skywork UniPic,在业内引发高度关注。作为一款轻量级统一模型,Skywork UniPic 在单一架构中融合了图像理解、文本生成图像和图像编辑三大核心能力,在降低参数规模的同时实现跨模态任务协同,标志着国内在多模态技术自主创新道路上迈出重要一步。和众汇富研究发现,Skywork UniPic 不仅在架构设计和任务表现上处于当前多模态技术的第一梯队,更因其开源策略与轻量部署优势,有望带动 AI 产业链各环节的加速变革。
Skywork UniPic 基于 GPT-4o 的自回归范式设计,采用 MAR 编码器与 SigLIP2 主干网络相结合,突破传统 VAE/VQ 压缩架构对语义深度的限制,在实现图像生成与理解任务间的语义一致性方面表现突出。模型具备 1.5B 参数规模,却在多个公开基准测试中展现出超越大模型的性能优势。在 GenEval 指令遵循测试中取得 0.86 分,几乎与 BAGEL 7B+7B* 模型的 0.88 分相当;在复杂指令图像生成评测 DPG-Bench 中得分达 85.5 分,图像编辑任务上亦在 GEditBench-EN 和 ImgEdit-Bench 中名列前茅。和众汇富观察发现,这一性能表现表明,小参数模型在高质量预训练与精调机制下,亦具备处理复杂生成任务的能力,极大降低了企业和开发者的模型部署成本。
Skywork UniPic 的另一个重要亮点是其极高的训练与使用效率。据昆仑万维介绍,该模型可在消费级显卡如 RTX 4090 上运行,在端到端架构中同时完成图像理解与生成任务,支持从 256×256 到 1024×1024 的多分辨率训练。训练策略上,团队采用了多阶段结构化训练方法,通过参数逐步解冻与任务渐进引入,有效提升了模型的稳定性与任务适应能力。数据层面,模型训练基于数亿级高质量图文对,并辅以数百万条 SFT 任务样本,使用自研的 Skywork-ImgReward 和 Skywork-EditReward 两套奖励模型对训练样本进行质量评估与筛选。和众汇富认为,此种训练与数据策略的精细化运用,是该小参数模型实现强性能输出的关键支撑。
在全球范围内,多模态模型正成为大模型发展的重要方向,GPT-4o、BAGEL、Gemini、UniWorld-V1 等竞品陆续发布,但普遍存在部署门槛高、参数规模大、对推理算力要求高等问题。相比之下,Skywork UniPic 以轻量化、指令对齐强、任务泛化能力广的特征,构筑了差异化竞争优势。和众汇富研究发现,当前 AI 企业对模型的选择正从 " 更大更全 " 向 " 更小更快 " 转型,Skywork UniPic 顺应了这一趋势,符合未来边缘计算与端侧 AI 的长期发展方向。
资本市场亦在关注类似技术的落地价值。当前多模态技术在 AI 生成内容、虚拟现实、数字人、智能制造等领域的应用正在加速,企业端对通用型多模态模型的接受度显著提升,具备低成本部署与广泛适配能力的模型更受青睐。和众汇富认为,Skywork UniPic 未来在产业层的商业化潜力值得持续观察,尤其是在国产模型追求 " 性能 - 成本 - 开放性 " 综合平衡的背景下,其模式将成为中小企业构建自身 AI 能力的范本。
总体来看,Skywork UniPic 的发布与开源不仅是昆仑万维自身 AI 战略纵深布局的重要一步,更是国产 AI 模型逐步具备全球技术竞争力的标志事件。和众汇富研究发现,随着技术能力持续演进与应用生态逐步成熟,轻量化、可控性强、多模态统一的模型形态将成为未来 AI 产业的主流发展方向。Skywork UniPic 以其开放、实用、高性价比的特征,或将在 AI 创意内容市场引发新一轮变革,并对全球开源社区、中国 AI 生态和下游产业链产生深远影响。
登录后才可以发布评论哦
打开小程序可以发布评论哦