日前,DeepSeek 方面发布并开源全新模型 DeepSeek-OCR,并公布了该模型的相关论文《DeepSeek-OCR:Contexts Optical Compression》(《DeepSeek OCR:上下文光学压缩》)。
据了解,DeepSeek-OCR 被描述为是 " 一项关于通过光学二维映射来压缩长上下文可行性的初步研究 ",希望通过利用视觉模态作为文本信息的高效压缩介质,解决大模型处理长文本时的算力难题。换二言之,DeepSeek-OCR 可以将文本压缩成视觉模态,通过 " 看图 " 来理解内容,从而消耗更少的 Token。
据 DeepSeek 方面介绍,DeepSeek-OCR 由两个核心组件组成,其中 DeepEncoder(编码器)负责把图片转成高度压缩的视觉 token,DeepSeek3B-MoE(解码器)负责从压缩后的视觉 Token 中重建文本。
为了灵活应对不同的压缩比需求和实际应用场景,DeepEncoder 被训练成支持从 "Tiny"(512x512, 64token)到 "Gundam"(动态分块,近 800token)等多种输入模式。这也就意味着同一个模型可根据任务需要,随机应变地调整其 " 压缩强度 "。
DeepSeek3B-MoE 虽然只有 3B 参数,但采用了 MoE(混合专家)机构,64 个专家中激活 6 个,再加 2 个共享专家,实际激活参数约 5.7 亿。因此也让模型既有 30 亿参数模型的表达能力,又保持了 5 亿参数模型的推理效率。
据 DeepSeek 方面透露,实测表明,当文本标记数量在视觉标记数量的 10 倍以内时(即压缩比
此外值得一提的是,在相关论文中,DeepSeek 还提出了用光学压缩模拟人类遗忘机制的新思路。具体而言,鉴于人类记忆会随时间衰退,越久远的事情记得越模糊,DeepSeek 方面设计将更久远的上下文渐进式地缩放成更小、更模糊的图像,以进一步减少 token 消耗。随着图像越来越小,内容也越来越模糊,最终达到 " 文本遗忘 " 的效果。
对此 DeepSeek 方面指出,这还是个需要进一步调查的早期研究方向,但对于平衡理论上无限的上下文信息或许是一个很好的方法。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦