DeepSeek，有新消息！

每经编辑｜张锦河

据媒体 2 月 27 日报道，在业界对新一代旗舰模型 DeepSeek V4 的翘首期盼中，DeepSeek 团队却悄然放出了一篇新的学术论文。

这篇论文由 DeepSeek 联合北大、清华共同撰写，将研究方向投向了决定大模型实际应用落地的关键一环——推理速度，为日益复杂的 AI 智能体，提供一套高效的底层系统解决方案。

具体来说，新论文介绍了一个名为 DualPath 的创新推理系统，专门针对智能体工作负载下的大模型（LLM）推理性能进行优化。通过引入 " 双路径读取 KV-Cache（类似记忆缓存）" 机制，重新分配存储网络负载，将离线推理吞吐量最高提升 1.87 倍，在线服务的每秒智能体运行数平均提升 1.96 倍。

论文在引言部分提到，大模型正从单轮对话机器人和独立推理模型，快速演进为智能体系统 ——能够自主规划、调用工具，并通过多轮交互解决实际任务。这种应用范式的转变，推动大模型推理工作负载发生重大变革：从传统的人类 - 大模型交互，转向人类 - 大模型 - 环境交互，交互轮次可达数十甚至数百轮。

上下文会跨轮次累积，最终长度可能达到极值。此时模型不需要大量计算，反而需要频繁从硬盘读取历史上下文的 KV-Cache；现有系统中，只有负责预处理的引擎会读取 KV-Cache，它的网卡带宽被占满，而负责生成内容的解码引擎，网卡带宽基本闲置，导致整个系统速度被卡脖子。

因此，论文提出的 DualPath，针对智能体工作负载、重新设计现代推理架构中 KV-Cache 加载逻辑，解决大模型做智能体任务时，速度被 " 数据读取 " 拖慢的核心问题，重要的是把闲置的带宽资源利用起来，相当于给数据读取 " 多开了一条高速路 "，实现速度的大幅提升。

这一论文成果延续了 DeepSeek 一贯的风格，在工程化层面将性能优化推向极致。有从业者认为，DeepSeek 做这类优化属于缺显卡的无奈之举，属于 " 脏活儿累活儿 "，大家更期待团队在模型上做创新。

关于 DeepSeek V4 的发布时间，市场传闻已几经更迭。从最初传闻的 2 月春节前后，到外媒最新报道的 " 最快下周 "，再到业内人士预测的 3 月前后，传闻链条愈发扑朔迷离。

就在近日，外网有网友爆料称，DeepSeek 正在测试 V4 Lite 模型，代号为 "Sealion-lite"，上下文窗口为 100 万 tokens，并原生支持多模态推理。也有消息提及，DeepSeek 已在近期将重大更新版本 V4 向华为等国内厂商提供提前访问权，以支持其优化处理器软件，确保模型在硬件上高效运行。然而，英伟达等厂商尚未获得类似权限。

面对传闻，DeepSeek 依旧保持其一贯的沉默，目前并未进行任何回应。

此前，DeepSeek 被大量用户吐槽风格突变，" 变冷淡 "，从原本细腻共情变为不称昵称、文风生硬带 " 登味 "，共情能力下降。

2 月 12 日晚，话题 "Deepseek 被指变冷淡了 " 登上微博热搜。当天，多名用户反馈，DeepSeek 在网页端和 APP 端进行了版本更新，支持最高 1M（百万）Token 的上下文长度。而去年 8 月发布的 DeepSeekV3.1 上下文长度拓展至 128K。

作为较早入局国内大模型赛道的玩家，DeepSeek 凭借早期技术积累和差异化定位，曾在 AI 助手市场占据先发优势。而随着字节跳动豆包、百度文心一言、阿里通义千问等巨头产品加速迭代，以及 ChatGPT、Claude 等海外强敌持续施压，国内 AI 助手赛道已进入白热化竞争阶段。

宙世代

一起剪

相关标签