文 | 字母 AI
有这样一则消息在 AI 圈悄然流传:DeepSeek 研究员郭达雅已经离职。
大家第一时间的反应普遍是 " 谁?谁是郭达雅?"
这不难理解,因为郭达雅的知名度远不如创始人梁文锋以及 " 天才 AI 少女 " 罗福莉。
但是在学术研究以及对 DeepSeek 大模型的贡献上,郭达雅要比后两者高许多。
截止至发稿,郭达雅发表的论文已经被引用超过 37000 次,远远超过了同龄的研究者。
郭达雅的 h 指数为 37,i-10 指数为 46,说明他不仅学术产出非常稳定,而且他还发表了多篇拥有极高影响力的论文。
甚至可以这么说,只要你了解过郭达雅的研究方向以及他所主导的研究后,你就会认识到,当年之所以能出现 DeepSeek 时刻,郭达雅绝对功不可没。
那他去哪了?目前有两种说法,一种说是百度,一种说是字节。
实际上这两年加入字节的这几个大牛,周畅、郁博文、蒋路,他们都是视频方向的。
郭达雅不一样,他是代码智能和数学方向的,他刚好可以补强字节在 Vibe Coding 以及 AGI 这两大板块。
如果是去百度,那也说得通。文心快码在 3 月份刚刚完成了 4.0 版本迭代,推出了多 agent 协同全链路开发的功能。
但是你知道文心快码 3.0 是什么时候发布的吗?是 2024 年 11 月。两个大版本中间相隔了一年多,这在以周为单位的 AI 圈是不太常见的。
这么看下来,百度其实比字节更需要郭达雅。
然而对于迟迟不发布 V4 的 DeepSeek,郭达雅的离职,无疑是雪上加霜。
郭达雅其人
郭达雅 1995 年出生于广东珠海,2014 年考入中山大学数据科学与计算机学院。大四时入选中山大学与微软亚洲研究院联合培养博士生项目,在印鉴教授和周明博士指导下攻读博士学位,研究方向是自然语言处理。
2020 年获得微软学者奖学金,这个奖项每年只授予亚太地区 12 名博士生。2023 年博士毕业后,他加入 DeepSeek 担任研究员,专注代码智能和大语言模型推理。
郭达雅在博士期间的一个细节值得注意。他在微软亚洲研究院实习时,分别在 EMNLP 和 NeurIPS 这两个顶会发表了论文。
如果按照中山大学的毕业要求,郭达雅在博士入学的第三天,就已经完成了博士学位最难的论文发表要求。
他本人在接受采访时也提到了这件事。那我们不妨挑一篇其中影响力最高的来一起过一遍。
2020 年,郭达雅作为共同第一作者,在 EMNLP 2020 上发表了 CodeBERT。另一位共同第一作者是哈尔滨工业大学的冯章印。
CodeBERT 是首个将双模态预训练的效果做到跨语言通用的 SOTA,它能同时处理自然语言和编程语言。在此之前,BERT 等预训练模型,虽然在自然语言处理领域取得了成功,但针对编程语言的预训练模型研究相对匮乏。
CodeBERT 的核心创新在于引入了替换标记检测任务。传统的掩码语言建模只能利用配对的自然语言 - 代码数据,而替换标记检测借鉴了 ELECTRA 的思想,通过检测生成器产生的似是而非的替代标记来训练模型。
这使得 CodeBERT 能够利用大量单模态代码数据,大大扩展了训练数据规模。模型在代码搜索和代码文档生成任务上取得了当时的最优性能。
或者我换一种方式来描述,CodeBERT 它能让 AI 既能读懂人类语言的需求描述,又能理解代码的逻辑结构。比如你用中文说 " 给我找一个排序算法 ",它就能帮你找到相关的代码;或者你给它一段代码,它能用人话解释这段代码在干什么。
虽然现在看来这没什么,可这篇论文是 2020 年发表的,在当时,代码就是代码,自然语言就是自然语言,这两者之间隔着一条通天河。
因此,CodeBERT 的出现,其实可以被看做是现如今 Vibe Coding 的开端。
加入 DeepSeek 以后,如果你要问郭达雅参与过的最有影响力的学术成果,那肯定是非 DeepSeek-R1 莫属了。
但如果你要问排名第二的是哪篇,那我告诉你,答案不是 DeepSeek-V3,而是 DeepSeekMath。
DeepSeek-V3 的技术报告引用数量为 3890,而 DeepSeekMath 的引用数量为 5182。
2024 年 2 月,郭达雅作为核心贡献者参与了 DeepSeekMath 的研发。这是继郭达雅以第一作者身份发表 DeepSeek-Coder 后的又一力作,这个项目的目标是提升大语言模型在数学推理方面的能力。
DeepSeekMath 的关键创新是引入了 GRPO,即群体相对策略优化。这是近端策略优化 PPO 的一种变体。
传统的 PPO 需要训练一个独立的价值函数模型,这增加了内存使用和计算开销。
所以 GRPO 干脆直接放弃了对独立价值函数模型的依赖,转而通过群体内的相对比较来估计优势,因此降低了训练资源需求。
GRPO 的工作流程是这样的:对于同一个数学问题,模型生成多个候选答案,然后根据这些答案的正确性进行排序,将正确答案的概率提高,错误答案的概率降低。
这样一来,大模型在下次遇到类似问题就知道该怎么做了。
这种方法不需要额外的价值网络,只需要一个能够验证答案正确性的奖励函数。在数学推理任务中,奖励函数可以直接检查最终答案是否正确。
相当于让模型在判断问题的时候,又快又准确,关键是还节省了内存占用。
经过 GRPO 强化学习优化后的 DeepSeekMath-RL 7B,在无外部工具、无投票集成的条件下,在 MATH 基准上取得了 51.7% 的成绩,这和同期的 Gemini-Ultra 和 GPT-4 接近,在当时的开源大模型领域,已经非常难得了。
因此,GRPO 在后来也被应用到了 DeepSeek-R1 的训练当中。
郭达雅去哪?
其实如果咱们从技术贡献的角度看,虽然梁文锋、罗福莉的知名度更高,但是郭达雅对 DeepSeek 的贡献要比他们俩都高。这点和公众认知是相反的。
梁文锋的作用是提供研究方向和资源支持。他在多篇论文中的署名位置通常靠后,表明他不是主要的技术贡献者。
罗福莉虽然也参与了 DeepSeek-V2 的研发。不过从论文作者名单看,她的名字并没有标注为核心贡献者。
言归正传,在 agent 的本质,就是代码理解(Code Understanding)、代码生成(Code Generation)和程序综合(Program Synthesis)这三件事。
而巧合的是,从 CodeBERT 开始,郭达雅的研究方向就是如此。
因此我认为,郭达雅的离职,对于 DeepSeek 来说,影响是非常大的。
除了前文提到的 CodeBERT,郭达雅还主导了 GraphCodeBERT 和 DeepSeek-Coder。
前者是让 AI 能理解代码中变量之间的依赖关系,比如说改了 a 会影响 b,改了 b 又会影响 c。这对代码重构和修复 Bug 特别有帮助。
后者则是通过支持多种编程语言和更长的上下文,让模型能一次性理解整个项目的代码架构。DeepSeek-Coder-V2 的代码性能与同期的 GPT-4 Turbo 相当。
2024 年的时候,字节从阿里挖走了周畅。周畅在阿里通义千问负责多模态相关研究,加入字节后担任 Seed 视觉多模态负责人,主导 Seedream 和 Seedance 的研发。
2026 年春节,周畅交出了在字节的第一份答卷 Seedance 2.0,凭借 " 导演级 " 的视频生成能力在全球范围内引发轰动。
现在,字节用同样的方式挖走了郭达雅。周畅补强的是视觉多模态,郭达雅要补强的,是代码智能和推理能力。
字节 Seed 团队在 2025 年初经历了一次重组。
吴永辉接管后,打破了模型部门间的数据壁垒,组建了三层架构:Edge 团队负责长周期的 AGI 课题,Focus 团队负责核心技术攻坚,Base 团队确保当前一代模型的稳定交付。
从技术匹配度看,郭达雅最可能负责的,是代码大模型的全链路技术攻坚。
比如说主导字节 Code-LLM 的下一个迭代之类的。
因为郭达雅擅长预训练架构优化、超长上下文适配、多语言支持等核心技术的研发,所以他很可能会为字节带来那种 " 项目级 " 的代码生成 agent。
第二个核心方向是推理能力。
目前字节 Seed 团队的核心战略之一,就是类 o1 的通用推理大模型,郭达雅的加入,将直接给字节带来行业最成熟的 GRPO 落地经验。
他大概率会负责推理方向的强化学习算法研发,优化豆包大模型的数学推理、多步逻辑推理、复杂任务拆解能力。
第三个方向是数学推理专项模型研发。
数学推理能力是大模型通用逻辑能力的核心底座。Seed 团队专门设立的 Edge 团队,聚焦 3 年以上的长期 AGI 基础研究。
并且取消了短期季度考核,允许团队投入资源做探索性研究。
郭达雅所参与过的 DeepSeekMath,正是这个方向。
如果郭达雅选择加入百度,他同样能在代码智能领域发挥重要作用。
前文提到,文心快码在 2026 年 3 月刚刚完成了重大升级,更新的重点是多 agent 协同。
它具体的协同方式是:Plan agent 负责需求澄清和任务规划,Architect agent 通过 SubAgents 机制拆解复杂任务,每个子 agent 拥有独立上下文,以解决长 Context 下的 " 遗忘 " 问题。
而郭达雅刚好研究过这套全链路环节上的每一个节点,换句话说,百度正在做的事情,和郭达雅的研究方向完全重合了。
因此,如果他加入文心团队,很可能会负责优化这些 agent 之间的协同机制,提升代码生成的准确性和项目级理解能力。
说到挖角 DeepSeek 核心人才,阿里也不容忽视。2026 年 3 月初,阿里通义千问技术负责人林俊旸在社交平台突然宣布离职。
更糟糕的是,除了林俊旸外,千问在 2026 年还失去了后训练负责人郁博文、代码模型负责人惠彬原等多名技术骨干。
就在这个关键时刻,阿里 CEO 吴泳铭在 3 月 19 日的财报电话会上放出狠话,说当前阿里的 ATH 事业群,更高优先级是 " 打造智能能力最强的模型 "。
这时候,如果阿里能够引进郭达雅这样的顶级专家,那无疑是一箭双雕。既能填补林俊旸离职留下的技术空白,又能直接获得 DeepSeek 在代码智能和推理能力方面的核心经验。
讲真的,比起迟迟不发 V4 的 DeepSeek,郭达雅有理由趁着年轻,去字节或者百度、阿里做出点成绩。
DeepSeek-V4 还会来吗?
2026 年 1 月初,外媒援引两名知情人士的消息称,DeepSeek 计划在春节期间推出下一代旗舰模型 V4。消息还提到,V4 在内部测试中的编程能力已经超越了 Claude 3.5 Sonnet 和 GPT-4o。
这个消息让整个 AI 圈都兴奋起来。
自 2025 年 1 月 20 日发布 DeepSeek-R1 以来,DeepSeek 没有发布过任何一个大版本的迭代,最新的模型也只到了 DeepSeek-V3.2。
春节来了,V4 没来。
2 月 11 日,有用户发现 DeepSeek 的 App 版本号更新为 1.7.4,上下文窗口从 128K 提升至 1M,知识库截止时间更新到 2025 年 5 月。
社区立刻沸腾了,大家纷纷在猜,说这就是传说中的 V4 灰度测试吗?
但接近 DeepSeek 的人士很快给出了否定答案:" 这不是 V4,就是一个小版本更新。"
随后外媒又报道称,DeepSeek 将在 3 月 2 日发布 V4。报道还表示,V4 将针对国产芯片进行优化,是该系列大模型中第一个完全基于国产算力生态的版本。
这一消息很快被大量国内媒体转载。
3 月 2 日到了,无事发生。
紧接着第二天,又有消息称 V4" 极大概率 " 将在本周发布,还有泄露的基准测试数据显示,V4 在 HumanEval 上得分 90%,作为对比,DeepSeek V3 为 82%。
事实上,HumanEval 只是一个入门级的代码生成基准测试,目前已趋于指标饱和,根本无法完整区分顶级代码大模型的真实能力,所以当时我就觉得这是个假新闻。
果然,眼瞅要到 4 月了,V4 依然没有出现。
现在还有报道称 DeepSeek-V4 预计在 2026 年 4 月正式发布,重点提升长期记忆能力,并深度适配国产芯片。
延期的原因众说纷纭。有人说是模型规模膨胀导致训练进度延迟,还有人说是多模态功能的整合比预期复杂。
但有一个细节值得注意,V4 的核心卖点之一,就是 " 超强编程能力 "。根据泄露的信息,V4 能处理 30 万行代码逻辑链。
而郭达雅,正是 DeepSeek 在这一块的顶梁柱。
DeepSeek 的核心研究人员不多。从论文作者名单看,经常出现的名字不超过 20 个。
在这样一个精英小团队里,每一个都是不可缺少的,更何况他还是郭达雅这样的超级大牛。
道理就摆在这了,如果 V4 成功了,说明 DeepSeek 找到了替代者,或者团队成功完成了技术交接。
如果 V4 再次延期,或者代码能力没有达到预期,那么郭达雅离职的影响就会真正显现出来。
从现在的情况看,DeepSeek 正在经历一场严峻的考验。它需要证明,即使失去了核心人才,它依然能够保持技术创新的节奏。


