IT之家 2小时前
DeepSeek公布多模态模型技术报告
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 4 月 30 日消息,DeepSeek 在 GitHub 平台正式发布了其多模态大模型,并同步公开了配套技术报告。该报告提出了一种基于 " 视觉原语 " 的创新推理框架,旨在突破当前多模态大语言模型(MLLMs)在空间参照任务中的核心瓶颈。

技术报告指出,尽管多模态大语言模型近年来取得长足进步,但主流的链式思维(CoT)推理范式仍主要局限于语言学领域。现有研究多聚焦于通过高分辨率图像裁剪等技术手段弥合 " 感知鸿沟 ",即提升模型对视觉细节的识别能力。然而,DeepSeek 团队认为,这一思路忽视了一个更为根本的限制:参照鸿沟。

自然语言固有的模糊性使其难以对复杂的空间布局提供精确、明确的指引。当模型需要执行涉及严谨空间参照的任务时,这种语言表达的局限性往往导致推理链条断裂,出现逻辑崩溃。

针对上述问题,DeepSeek 提出了 " 基于视觉原语的思考 "(Thinking with Visual Primitives)框架。该框架将点、边界框等空间标记从单纯的视觉输入元素,提升为推理过程中的 " 基本思维单元 "。通过将这些视觉原语直接嵌入模型的思考链路,DeepSeek 使模型在推理过程中具备了 " 指代 " 能力 —— 即能够将抽象的认知轨迹锚定到图像的具体物理坐标上,从而实现对空间关系的精确推演。

技术报告披露,该框架采用了高度优化的模型架构,具备极高的视觉标记效率。尽管模型规模紧凑且图像标记预算显著较低,DeepSeek 的多模态模型在具有挑战性的计数和空间推理基准测试上,能够与 GPT-5.4、Claude-Sonnet-4.6 和 Gemini-3-Flash 等前沿模型匹配。这为开发更高效、更具可扩展性的 System-2 类多模态智能指明了方向。

IT 之家注意到,DeepSeek 此前已经上线了 " 识图模式 ",该模式和 " 快速模式 "" 专家模式 " 并列,并非简单的 OCR 文字,而是终于具备了多模态识别能力。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论